RL Algorithms: PPO & GRPO-like
RL Algorithms: PPO & GRPO-like
导言
导言
快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点
导言
Pytorch 2.5 :Dataset & Dataloader
导言
Why Choose Quantitative Finance
导言
为什么之前认为金融只是调配资源,并不产生生产价值的我。也会想搞量化。
导言
第一次相亲(第二次见面)
导言
第一次相亲
导言
相亲是展现真实自我,寻找志趣相投另一半的过程。
Ideas around Vision-Language Models (VLMs)
导言

导言
vllm 的ray后端属实奇诡,ray stop有残留,flush打印被吞(虽然输出能标记ip,折叠重复,在master输出),ray集群的环境变量固定不变导致DP无法实现多机。
为此考虑使用torchrun实现多机并行。
写得太好了,由浅入深。