Category: Artificial Intelligence - SHAOJIE'S BOOK

Posted 2025-11-25Updated 2025-11-27Artificial Intelligence44 minutes read (About 6640 words)

RL Algorithms: PPO & GRPO-like

导言

RL 算法(Reinforcement Learning from Verifiable Rewards (RLVR))在 2025年的GRPO提出后其变种和应用范围迎来了井喷爆发。
本文详细介绍 PPO、GRPO以及DAPO。

[^1]

Posted 2025-11-19Updated 2025-11-27Artificial Intelligencean hour read (About 10225 words)

Multimodel RL Next

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点

Posted 2025-04-17Updated 2025-11-27Artificial Intelligence13 minutes read (About 1961 words)

Ideas around Vision-Language Models (VLMs)

导言

当前主流的多模态生成模型（如图像生成和视频生成）主要采用Latent Stable Diffusion的方案框架。为了减少计算量，图像/视频等模态的数据（噪声）先经过VAE压缩得到Latent Vector，然后在文本信息的指导下进行去噪，最后生成符合预期的图像或视频。排行榜: Vbench
当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程，充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段，如先进行模态对齐的一阶段预训练，然后进行二阶段的参数微调。

Posted 2025-03-19Updated 2025-11-27Artificial Intelligence27 minutes read (About 4054 words)

导言

vllm 的ray后端属实奇诡，ray stop有残留，flush打印被吞（虽然输出能标记ip，折叠重复，在master输出），ray集群的环境变量固定不变导致DP无法实现多机。

为此考虑使用torchrun实现多机并行。

看这篇，LLM实践：分布式训练框架的编程基础

写得太好了，由浅入深。

Posted 2025-02-27Updated 2025-11-27Artificial Intelligence12 minutes read (About 1735 words)

Next of My Ascend Career

导言

作为卖NPU AI加速卡的软件员工，目标是将昇腾的底层算力与上层多模态应用需求精准对接，释放昇腾AI算力，让客户看到NPU的性能、性价比、易用性、客户自身业务的使用需求。

Posted 2025-02-27Updated 2025-11-27Artificial Intelligence16 minutes read (About 2409 words)

AI Post Traning: RL & RLHF & DPO

导言

Deepseek 的 GRPO 方法展示了强化学习的潜能。
RLHF 利用复杂的反馈回路，结合人工评估和奖励模型来指导人工智能的学习过程。(RLHF = 人类偏好数据 + Reward Model + RL（如 PPO）, 所以RLHF是RL的一种实践方式)
DPO 采用了更直接的方法，直接运用人的偏好来影响模型的调整。
Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。

Posted 2025-02-25Updated 2025-11-27Artificial Intelligence38 minutes read (About 5750 words)

AI Traning System

导言

Step-Video论文详细介绍了AI 系统的一些构建细节。

Posted 2025-02-20Updated 2025-11-27Artificial Intelligence5 minutes read (About 763 words)

250217 Step-Video-T2V Reading & Porting

导言

阅读Step-Video-T2V代码（git id d3ca3d6），移植到昇腾。

Posted 2025-01-02Updated 2025-11-27Artificial Intelligence3 minutes read (About 491 words)

AI Model Visualization

导言

作为一个AI初学者，总是遇到以下场景：

客户正在基于NV开发一个AI模型，需要同步的做昇腾适配。手上只有NV下的代码。
往往很难将论文里的AI模型的图，和代码里的每一层以及参数对应起来。

设计期望：

在模型开发的过程中，能简单插入，来明确当前模块的大致信息。
1. 名称，类型(卷积层，池化层)，输入/输出/参数, 执行的时间(第一次)。
可视化
格式兼容cpprinter。
能体现出TP，CP等并行策略的效果。

大致思路：

还是借助chrome://tracing格式，来设计类似PyPrinter的工具。
早期可以使用VizTracer代替。

Posted 2024-01-03Updated 2025-11-27Artificial Intelligence44 minutes read (About 6674 words)

AI Traning Parallism

导言

AI 训练时，有些分布式训练的常见并行概念需要了解。
- 例如，TP, VP, SP, VPP