Posted 2025-11-25Updated 2025-11-25Artificial Intelligence44 minutes read (About 6604 words)RL Algorithms: PPO & GRPO-like 导言 RL 算法在 2025年的GRPO提出后其变种和应用范围迎来了井喷爆发。 本文详细介绍 PPO、GRPO以及DAPO。 Read more