AI Post Traning: RL & RHLF & DPO
导言
Deepseek 的 GRPO 方法展示了强化学习的潜能。
RLHF 利用复杂的反馈回路,结合人工评估和奖励模型来指导人工智能的学习过程。而DPO 采用了更直接的方法,直接运用人的偏好来影响模型的调整。
Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。
AI Post Traning: RL & RHLF & DPO
导言
Deepseek 的 GRPO 方法展示了强化学习的潜能。
RLHF 利用复杂的反馈回路,结合人工评估和奖励模型来指导人工智能的学习过程。而DPO 采用了更直接的方法,直接运用人的偏好来影响模型的调整。
Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。
导言
Step-Video论文详细介绍了AI 系统的一些构建细节。