RL Algorithms: PPO & GRPO-like
RL Algorithms: PPO & GRPO-like
导言
[^1]
导言
快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点
Ideas around Vision-Language Models (VLMs)
导言

导言
vllm 的ray后端属实奇诡,ray stop有残留,flush打印被吞(虽然输出能标记ip,折叠重复,在master输出),ray集群的环境变量固定不变导致DP无法实现多机。
为此考虑使用torchrun实现多机并行。
写得太好了,由浅入深。
导言
作为卖NPU AI加速卡的软件员工, 目标是将昇腾的底层算力与上层多模态应用需求精准对接,释放昇腾AI算力,让客户看到NPU的性能、性价比、易用性、客户自身业务的使用需求。
AI Post Traning: RL & RLHF & DPO
导言
导言
Step-Video论文详细介绍了AI 系统的一些构建细节。
250217 Step-Video-T2V Reading & Porting
导言
阅读Step-Video-T2V代码(git id d3ca3d6),移植到昇腾。
导言
作为一个AI初学者,总是遇到以下场景:
设计期望:
大致思路:
chrome://tracing格式,来设计类似PyPrinter的工具。VizTracer代替。导言
