RL Algorithms: PPO & GRPO-like

导言

  • RL 算法(Reinforcement Learning from Verifiable Rewards (RLVR))在 2025年的GRPO提出后其变种和应用范围迎来了井喷爆发。
  • 本文详细介绍 PPO、GRPO以及DAPO。

[^1]

Read more

Ideas around Vision-Language Models (VLMs)

导言

  • 当前主流的多模态生成模型(如图像生成和视频生成)主要采用Latent Stable Diffusion的方案框架。为了减少计算量,图像/视频等模态的数据(噪声)先经过VAE压缩得到Latent Vector,然后在文本信息的指导下进行去噪,最后生成符合预期的图像或视频。排行榜: Vbench
  • 当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。

Read more

torchrun

导言

vllm 的ray后端属实奇诡,ray stop有残留,flush打印被吞(虽然输出能标记ip,折叠重复,在master输出),ray集群的环境变量固定不变导致DP无法实现多机。

为此考虑使用torchrun实现多机并行。

看这篇,LLM实践:分布式训练框架的编程基础

写得太好了,由浅入深。

DP

Read more

Next of My Ascend Career

导言

作为卖NPU AI加速卡的软件员工, 目标是将昇腾的底层算力与上层多模态应用需求精准对接,释放昇腾AI算力,让客户看到NPU的性能、性价比、易用性、客户自身业务的使用需求。

Read more

AI Post Traning: RL & RLHF & DPO

导言

  • Deepseek 的 GRPO 方法展示了强化学习的潜能。
  • RLHF 利用复杂的反馈回路,结合人工评估和奖励模型来指导人工智能的学习过程。(RLHF = 人类偏好数据 + Reward Model + RL(如 PPO), 所以RLHF是RL的一种实践方式)
  • DPO 采用了更直接的方法,直接运用人的偏好来影响模型的调整。
  • Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。
Read more

AI Model Visualization

导言

作为一个AI初学者,总是遇到以下场景:

  1. 客户正在基于NV开发一个AI模型,需要同步的做昇腾适配。手上只有NV下的代码。
  2. 往往很难将论文里的AI模型的图,和代码里的每一层以及参数对应起来。

设计期望:

  1. 在模型开发的过程中,能简单插入,来明确当前模块的大致信息。
    1. 名称,类型(卷积层,池化层),输入/输出/参数, 执行的时间(第一次)。
  2. 可视化
  3. 格式兼容cpprinter。
  4. 能体现出TP,CP等并行策略的效果。

大致思路:

  • 还是借助chrome://tracing格式,来设计类似PyPrinter的工具。
  • 早期可以使用VizTracer代替。
Read more