导言
vllm 的ray后端属实奇诡,ray stop有残留,flush打印被吞(虽然输出能标记ip,折叠重复,在master输出),ray集群的环境变量固定不变导致DP无法实现多机。
为此考虑使用torchrun实现多机并行。
写得太好了,由浅入深。
导言
vllm 的ray后端属实奇诡,ray stop有残留,flush打印被吞(虽然输出能标记ip,折叠重复,在master输出),ray集群的环境变量固定不变导致DP无法实现多机。
为此考虑使用torchrun实现多机并行。
写得太好了,由浅入深。
导言
HW24年狠抓了训练,但是推理性能稍微落下,dsv3的出现,强化学习的爆火,反过来对推理性能提出了很高的要求。为此高性能的vllm推理框架变成了hw首先适配的目标。
导言
来hw的这小半年成,从PTA到MM又来到DeepseekV3,接触了很多代码,但是却还是常陷入代码细节阅读困境,难以理解如天书般的垃圾代码。往往陷入代码细节,一读读几天,并且经常难以产出阶段性成果。
如何快速代码上手,
导言
作为卖NPU AI加速卡的软件员工, 目标是将昇腾的底层算力与上层多模态应用需求精准对接,释放昇腾AI算力,让客户看到NPU的性能、性价比、易用性、客户自身业务的使用需求。
AI Post Traning: RL & RLHF & DPO
导言
导言
Step-Video论文详细介绍了AI 系统的一些构建细节。
250217 Step-Video-T2V Reading & Porting
导言
阅读Step-Video-T2V代码(git id d3ca3d6),移植到昇腾。
导言
平时里对未来的车和房子有些小要求,防止忘记随手记录一下。
导言
当时我选择一线的原因是决定能最解决客户,每个工作能产生最大的价值。
通过一段时间的开发,我感觉在一线开发就像在泥潭里前进:走得越快越远,泥潭陷得越深,前进阻力越大。
困境为何而来,如何解决困境,是我想讨论的重点。
导言
在交付PTA需求的时候,发现需求在测试人员的更大的测试规模下出现了问题:
在增多了不同的测试样例,和不同的测试设备(910A,910B,310P)时;程序是否可执行,性能是否达标,精度是不是正常;都有待监控。
说明在开发过程中,我构建个人的每日测试框架,持续监控开发的测试和性能。
集成 windmill-labs / windmill。