SHAOJIE'S BOOK

Posted 2026-07-03Updated 2026-07-03Artificial Intelligence23 minutes read (About 3458 words)

导言

模型训练建模不是先问“MFU 有多高”，而是先把模型结构、硬件账本、并行切分、调度路径和实测校准放到同一个估算器里。MFU 是其中最干净的计算口径：它把模型理论必需 FLOPs、设备峰值和实测步时连在一起；但显存能不能放下、通信会不会卡住、padding 是否浪费、EP/TP/SP 是否合适，必须另算。

Posted 2026-07-03Updated 2026-07-03Artificial Intelligence20 minutes read (About 3031 words)

BSND TND Operator Layout

导言

讨论 BSND/TND 时，最容易误判的是把 推理 prefill 支持 当成 训练全链路支持。对 Qwen3.5 这类含 Gated Delta Net 的模型，TND 不只是把 [B, S, N, D] reshape 成 [T, N, D]：训练还要覆盖 backward、recurrent state、cu_seqlens、label / loss mask、old logprob、ref logprob、actor update 和框架并行契约。

本文的结论是：推理 TND 是中等工程量，训练 TND 是大工程量；verl 已经支持 Qwen3.5 RL，但具体 layout 支持取决于 FSDP/Megatron/MindSpeed/vLLM 路径，不能一概而论。

Posted 2026-07-03Updated 2026-07-03Artificial Intelligence33 minutes read (About 4951 words)

AI Infra Daily Radar

导言

这篇文章记录 AI infra、post-training 和 multimodal serving 方向的每日 PR / issue 雷达。每轮只深入少量 P0/P1 项：优先性能、多模态、调度、attention、padding、KV cache、MTP、NPU / Ascend 相关变化。

Posted 2026-07-01Updated 2026-07-03Artificial Intelligence36 minutes read (About 5357 words)

VeRL Async Policy

导言

VeRL async 的核心问题不是“开异步就一定更快”，而是把 rollout 长尾、训练更新、参数同步和旧样本容忍度放到同一个队列系统里调参。这篇笔记梳理 VeRL 老版 one_step_off_policy / fully_async_policy 与新版 trainer v1 的关系，解释 staleness 的真实语义，并给出 64P、128P NPU 场景下选择训推资源比例的第一轮计算方法。

Posted 2026-07-01Updated 2026-07-03Artificial Intelligence20 minutes read (About 2949 words)

NPU Training Operators - GDN

导言

这篇笔记记录一次很窄的接入设计：在 verl release/v0.8.0 的 Qwen3.5 GRPO + FSDP 路径里，NPU 已经有 RMSNorm、RoPE、MoE GMM 等 patch，但 Gated Delta Net / GDN 仍然落在原始 eager 路径。目标不是改 GRPO 算法，而是给模型 forward 里的 chunk_gated_delta_rule 加一个可配置的 Triton 优先路径。

参考对象是 MindSpeed-MM 提交 5aaf0791d00abcbf5dd16af10091f4391030ad00：它把 Qwen3.5 的 GDN 计算模式显式化为 gdn_compute_mode，并区分 triton、ascendc、eager。本文给出的 verl 方案先接入 Triton，保留 eager 回退；AscendC 自定义算子作为后续扩展。

Posted 2026-06-30Updated 2026-07-03Artificial Intelligence11 minutes read (About 1639 words)

VeRL TransferQueue

导言

TransferQueue 不是普通 FIFO queue，也不只是 rollout 侧的 token queue。它更像 RL 后训练的数据系统：controller 仍然负责编排训练流程，但大 tensor 的读写、字段就绪状态、样本消费记录和跨 worker 数据传输被拆到独立 data plane 中。

Posted 2026-06-30Updated 2026-07-03Artificial Intelligence10 minutes read (About 1545 words)

VeRL Router Replay

导言

Router Replay 的核心不是让 MoE 路由更快，而是把 rollout、old logprob 重算和 new logprob 更新三段路径的专家选择对齐。MoE 的 top-k routing 是离散分叉，微小数值差异会导致 expert 集合突变；一旦 old/new logprob 的差异混入“路由换了”而不是“策略变了”，PPO / GRPO 的 ratio、clip 和 KL 都会失真。

Posted 2026-06-30Updated 2026-07-03Artificial Intelligence11 minutes read (About 1706 words)

VeRL Speculative Decoding

导言

RL rollout 中的 speculative decoding 不是普通推理加速的简单移植。普通 serving 只关心 latency、throughput 和用户体验；RL rollout 还必须保证 response、old logprob、reward、advantage 和 policy loss 都对应同一个 verifier policy。

换句话说，draft model 可以帮助系统更快地产生候选 token，但训练语义必须仍然属于 target / verifier policy。

Posted 2026-06-30Updated 2026-07-03Artificial Intelligence9 minutes read (About 1298 words)

VeRL Feature Survey

导言

这篇文章现在作为 verl / RL infra 特性地图：把 vLLM 图模式、speculative decoding、router replay、FullAsync / AsyncFlow 和 TransferQueue 放到同一张系统图里，但不再承载所有细节。

核心结论仍然是：这些特性不在同一层。 有的减少推理执行开销，有的解决 decode 串行性，有的保证 MoE 路由一致性，有的把 rollout 与训练重叠，有的把数据从 single controller 中解耦。真正的收益来自先定位瓶颈，再打开对应特性。

Posted 2026-06-25Updated 2026-07-03Artificial Intelligence18 minutes read (About 2772 words)

VLM RL Evaluation Datasets

导言

想用 AISBench 评测多模态 RL 后模型效果时，最容易误判的是把“多模态”当作一个整体类别。更精确的判断应该是：训练数据、奖励函数、输出格式和评测集必须在同一个能力域内闭合。

本文围绕 verl 当前常见的 Geo3K 多模态 RL 样例，以及新增的 TinyLLaVA-Video-R1-NextQA、multimodal-open-r1-8k-verified 两类数据，比较它们的规模、文本长度、模态、任务类型和 AISBench 评测匹配关系。

Categories

Subscribe for updates

follow.it

Links

Recents

Archives

Tags