RL DFX Metrics

导言

RL 训练的指标不能只看 reward、loss 和 throughput。真正可用的 DFX 体系,需要同时解释 正确性、稳定性、显存、性能、负载均衡和数据质量

Read more