Blind Date Tips

导言

相亲是展现真实自我,寻找志趣相投另一半的过程。

Read more

Ideas around Vision-Language Models (VLMs) / Reasoning Models

导言

当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。

排行榜:

Read more

torchrun

导言

vllm 的ray后端属实奇诡,ray stop有残留,flush打印被吞(虽然输出能标记ip,折叠重复,在master输出),ray集群的环境变量固定不变导致DP无法实现多机。

为此考虑使用torchrun实现多机并行。

看这篇,LLM实践:分布式训练框架的编程基础

写得太好了,由浅入深。

DP

Read more

Vllm Basic

导言

HW24年狠抓了训练,但是推理性能稍微落下,dsv3的出现,强化学习的爆火,反过来对推理性能提出了很高的要求。为此高性能的vllm推理框架变成了hw首先适配的目标。

  1. 一方面我需要大致了解vllm框架的设计,
  2. 另一方面,我主要需要关注vllm-ascend实现了哪些接口。
Read more

Code Project Reading

导言

来hw的这小半年成,从PTA到MM又来到DeepseekV3,接触了很多代码,但是却还是常陷入代码细节阅读困境,难以理解如天书般的垃圾代码。往往陷入代码细节,一读读几天,并且经常难以产出阶段性成果。

如何快速代码上手,

  1. 通过代码外资料(LLM介绍,流程结构图,开源完善实现),
    1. 快速理解代码背后的概念,。e.g.,MOE,EP
    2. 简单了解开源代码实现思路,亮点。
  2. 跑通最小样例,通过执行调用栈(类似VizTrace),从整体和上层来理解当前代码框架。
  3. 聚焦没有实现的代码部分,或者性能瓶颈,递归仔细分析。
Read more

Next of My Ascend Career

导言

作为卖NPU AI加速卡的软件员工, 目标是将昇腾的底层算力与上层多模态应用需求精准对接,释放昇腾AI算力,让客户看到NPU的性能、性价比、易用性、客户自身业务的使用需求。

Read more

AI Post Traning: DPO

导言

在LLM对齐的早期探索中,研究者们建立了两种影响深远的基础范式。

  1. 一种是基于强化学习的PPO,它将经典的RL框架引入LLM微调,通过复杂的系统协调实现了强大的性能;
  2. 另一种是DPO,它通过深刻的理论洞见,将对齐问题转化为一个更简洁的监督学习问题,显著提升了训练的稳定性和效率。

鉴于PPO-RLHF的复杂性,研究者们开始寻求更简洁、更直接的对齐方法。直接偏好优化(Direct Preference Optimization, DPO)应运而生,它巧妙地绕过了显式的奖励建模和复杂的RL优化循环,为偏好对齐提供了一个优雅的替代方案。

这篇文章介绍DPO, 和Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。

必看好文[^7]

Read more