导言
VeRL 基于ray的多进程管理,并结合 推理、训练等多个阶段。其E2E时间组成和如何加速都是待研究的课题。
Pytorch 7 :Memory Optimization(Freeing GPU/NPU Memory Early)
导言
Train Stages: Pretrain, Mid-Train(CT), SFT, RL
导言
模型训练,为什么需要这么多阶段,每个阶段的独特职责和意义是什么。
RL Algorithms: PPO-RLHF & GRPO-family
导言
[^1]
必看好文[^2]
导言
Bridging the Gap: Challenges and Trends in Multimodal RL.
导言
快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点:
导言
Pytorch 2.5 :Dataset & Dataloader
导言
Why Choose Quantitative Finance
导言
为什么之前认为金融只是调配资源,并不产生生产价值的我。也会想搞量化。
导言
第一次相亲(第二次见面)