SHAOJIE'S BOOK

Posted 2025-02-27Updated 2025-11-20Artificial Intelligence16 minutes read (About 2384 words)

导言

Deepseek 的 GRPO 方法展示了强化学习的潜能。

RLHF 利用复杂的反馈回路，结合人工评估和奖励模型来指导人工智能的学习过程。而DPO 采用了更直接的方法，直接运用人的偏好来影响模型的调整。

Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。