Posted 2026-05-19Updated 2026-07-03Artificial Intelligence14 minutes read (About 2115 words)RL Data Flow 导言 这篇文章只回答一个问题:一条 RL 样本从 prompt 进入系统,到 rollout、reward、logprob、advantage、loss、backward,最后回到下一轮训练时,数据到底怎么流、shape 怎么变、显存为什么涨。 Read more
导言 这篇文章只回答一个问题:一条 RL 样本从 prompt 进入系统,到 rollout、reward、logprob、advantage、loss、backward,最后回到下一轮训练时,数据到底怎么流、shape 怎么变、显存为什么涨。
2027-03-15Building Large-Scale AI Systems on Ascend: Training, Inference, and Multimodal OptimizationOverview