Multimodel RL Next

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点

多模态理解模型+RL井喷

GRPO出现之后,基于GRPO及其变种(DAPO、VAPO)井喷出一系列模型。[^1]

RL算法趋势:GRPO变种为主

在强化学习(RL)的应用中,特别是在多模态大语言模型(MLLMs)的理解能力增强中,常常提到两种主要的RL训练范式:价值模型无关的方法(value-model-free methods)价值模型相关的方法(value-model-based methods)[^1]。这两种方法的主要区别在于它们是否依赖于价值函数的显式建模。

价值模型无关的方法(value-model-free methods)

这类方法不依赖于价值函数或者模型来估计未来奖励。它们直接通过策略梯度(policy gradient)来优化策略,即通过直接评估策略(policy)对应的行为(action)的概率分布,并根据奖励信号来调整这个分布。这种方法的代表算法是Group Relative Policy Optimization (GRPO)[^11]。

  • GRPO:在GRPO中,策略的更新不依赖于价值函数的估计,而是通过比较组内不同的输出响应(samples)来计算优势函数(advantage function),然后基于这个优势函数来更新策略。这种方法的优势在于实现简单,不需要额外的价值模型训练,能够稳定地进行策略优化。

下表的主体内容来自^14:

Method Year Objective Type Clip KL Penalty Key Mechanism Signal Link Resource
GRPO family
GRPO 2025 Policy gradient under group-based reward Yes Yes Group-based relative reward to eliminate value estimates Group-based reward Paper -
DAPO 2025 Surrogate of GRPO’s Yes Yes Decoupled clip + dynamic sampling Dynamic group-based reward Paper Code Model Website
GSPO 2025 Surrogate of GRPO’s Yes Yes Sequence-level clipping, rewarding, optimization Smooth group-based reward Paper -
GMPO 2025 Surrogate of GRPO’s Yes Yes Geometric mean of token-level rewards Margin-based reward Paper Code
ProRL 2025 Same as GRPO’s Yes Yes Reference policy reset Group-based reward Paper Model
Posterior-GRPO 2025 Same as GRPO’s Yes Yes Reward only successful processes Process-based reward Paper -
Dr.GRPO 2025 Unbiased GRPO objective Yes Yes Eliminate bias in optimization Group-based reward Paper Code Model
Step-GRPO 2025 Same as GRPO’s Yes Yes Rule-based reasoning rewards Step-wise reward Paper Code Model
SRPO 2025 Same as GRPO’s Yes Yes Two-staged history-resampling Reward Paper Model
GRESO 2025 Same as GRPO’s Yes Yes Pre-rollout filtering Reward Paper Code Website
StarPO 2025 Same as GRPO’s Yes Yes Reasoning-guided actions for multi-turn interactions Group-based reward Paper Code Website
GHPO 2025 Policy gradient Yes Yes Adaptive prompt refinement Reward Paper Code
Skywork R1V2 2025 GRPO with hybrid reward signal Yes Yes Selective sample buffer Multimodal reward Paper Code Model
ASPO 2025 GRPO with shaped advantage Yes Yes Clipped bias to advantage Group-based reward Paper Code Model
TreePo 2025 Same as GRPO’s Yes Yes Self-guided rollout, reduced compute burden Group-based reward Paper Code Model Website
EDGE-GRPO 2025 Same as GRPO’s Yes Yes Entropy-driven advantage + error correction Group-based reward Paper Code Model
DARS 2025 Same as GRPO’s Yes No Multi-stage rollout for hardest problems Group-based reward Paper Code Model
CHORD 2025 Weighted GRPO + SFT Yes Yes Auxiliary supervised loss Group-based reward Paper Code
PAPO 2025 Surrogate of GRPO’s Yes Yes Implicit Perception Loss Group-based reward Paper Code Model Website
Pass@k Training 2025 Same as GRPO’s Yes Yes Pass@k metric as reward Group-based reward Paper Code
CPPO 2025 Same as GRPO’s Yes Yes Completion Pruning Group-based reward Paper

CPPO 通过分析发现,并不是所有的完成对于策略训练都有相同的贡献,其贡献程度与它们的相对优势有关。因此,CPPO 提出了一种基于绝对优势的完成剪枝策略,大幅减少了梯度计算和更新所需的完成数量。

价值模型相关的方法(value-model-based methods)

与价值模型无关的方法不同,价值模型相关的方法会估计一个价值函数来预测未来的累积奖励。这种方法通常会结合价值函数和策略梯度来更新策略,能够提供更为精确的奖励估计,从而优化策略。代表性的算法包括Proximal Policy Optimization (PPO)[^7]。

  • PPO:PPO是一种结合了价值函数和策略梯度的算法。它通过优化一个代理的价值函数来估计当前策略下的状态值,并结合这个价值估计来更新策略。PPO的关键在于通过一个辅助的价值函数来稳定训练过程,并提高训练的样本效率。

下表的主体内容来自^14:

Method Year Objective Type Clip KL Penalty Key Mechanism Signal Link Resource
PPO family
PPO 2017 Policy gradient Yes No Policy ratio clipping Reward Paper -
PF-PPO 2024 Policy gradient Yes Yes Policy filtration Noisy reward Paper Code
VinePPO 2024 Policy gradient Yes Yes Unbiased value estimates Reward Paper Code
PSGPO 2024 Policy gradient Yes Yes Process supervision Process Reward Paper -
ORZ. 2025
VC-PPO. 2025
VAPO 2025 Policy gradient Yes Adaptive Adaptive KL penalty + variance control Reward + variance signal Paper -

两种方法各有优势,适用于不同的场景和任务。价值模型无关的方法通常更加简单直接,适合于那些难以建模价值函数的复杂任务。而价值模型相关的方法则在奖励信号较为稀疏或者需要更精确的奖励预测时表现出色,能够更有效地引导模型学习。在实际应用中,选择哪种方法往往取决于具体任务的特性、可用数据的质量以及计算资源的限制。

[^16]

当前应用:GRPO-family一家独大

  1. online policy mirror descent (OPMD) 基于2021的Mirror Descent Policy Optimization一文。
  2. RLOO 是2024年提出的PPO算法的变种[^15]
  3. 统计:GRPO 30;RLOO 2;OPMD 2;PPO 1;GRPO变种(GRPO-SSB、Fast-GRPO、T-GRPO、GRPO-SSR、GRPO-D、StepGRPO、GFlowNet、GRPO&PTST) 各一个

多模态理解

在强化学习增强多模态大语言模型(MLLMs)的理解能力方面,存在一些核心挑战,这些挑战指向了未来研究的三个主要方向:稀疏奖励(sparse rewards)不高效的跨模态理解(inefficient cross-modal reasoning)以及现实世界部署约束(real-world deployment constraints)[^1]。以下是对这三个方向的解释:

避免稀疏奖励(Sparse Rewards)

问题描述:在RL中,稀疏奖励指的是奖励信号不频繁或者只在任务完成时(结果奖励机制 ORM)才提供反馈,这会导致模型难以从少数的奖励信号中学习到有效的策略。在多模态理解任务中,稀疏奖励使得模型难以区分哪些行为是积极的,哪些是消极的,从而难以优化其理解策略。

未来方向:为了解决稀疏奖励的问题,未来的研究可能会集中在以下几个方面:

  • 奖励分解:将复杂任务分解为多个子任务,并为每个子任务提供密集的奖励信号,以便模型能够更容易地学习到正确的行为。
    • 过程导向奖励机制(Process Reward Mechanisms)可以被视为一种奖励分解的实现方式。过程导向奖励机制强调评估和奖励模型在推理过程中的中间行为,而不仅仅是最终结果的正确性。这种方法可以帮助模型更好地学习到解决问题的正确步骤,从而提高推理能力。例如,在多模态推理任务中,模型可能会被奖励为生成逻辑连贯的推理步骤,而不仅仅是给出正确的最终答案。
  • 奖励共享:在多任务学习中,允许不同任务之间共享奖励信号,以增加奖励的频率和多样性。
  • 分层奖励建模:开发更复杂的奖励模型,能够在不同的抽象层次上提供奖励,从而引导模型进行更深层次的学习。
    • curriculum reinforcement learning(课程强化学习)也与奖励分解相关。这种方法通过逐步增加任务难度,让模型先从简单的任务开始学习,然后逐步过渡到更复杂的任务。这样的训练策略可以看作是对奖励分解的一种实现,其中每个课程阶段都可以为模型提供更密集的反馈和奖励信号。

这点在Agent RL里体现的更明显

更高效的跨模态理解(Inefficient Cross-Modal Reasoning)

问题描述

  • 跨模态理解涉及到整合和协调来自不同感官通道(如文本、图像、音频和视频)的信息。当前的MLLMs在处理跨模态数据时可能会效率低下,因为它们需要理解和融合来自不同模态的复杂信息。
  • 多模态超越文本的挑战:与纯文本数据相比,多模态数据的质量和数量不足,导致模型在视频内容的对齐上表现不佳。

未来方向:为了提高跨模态理解的效率,未来的研究可能会探索以下策略:

多模态融合技术

开发更有效的多模态融合机制,以便更好地整合和协调不同模态的信息。

  • 利用强化学习从人工智能反馈(RLAIF[^6])中获取多模态对齐的新方法:
  • 其中上下文感知的奖励模型(Context-Aware Reward Modeling):通过将视频细分成多个片段,并为每个片段生成详细的描述,然后将这些描述整合到奖励模型中,以提供更清晰的视频内容理解。

视觉引导理解链MM-CoT

利用视觉信息来引导和构建理解链,提高理解过程中的逻辑连贯性和效率。

  • [^1]
  • 视觉决策领域:Praxis-VLM[^18]通过文本驱动的强化学习就能实现了复杂的视觉决策能力。文本驱动的推理学习:Praxis-VLM 通过文本描述的情境学习推理能力,这表明推理和决策能力可以在没有直接多模态经验的情况下通过语言表示学习。

  • 视觉搜索领域:Mini-o3[^17]通过构建 Visual Probe 数据集、采集冷启动数据和引入 over-turn masking 策略(鼓励更多轮回答) 来提升基于图像的工具使用和推理能力,能够在测试时自然扩展到数十个回合,从而在挑战性的视觉搜索任务中实现最先进的性能。

轻量级RL框架

设计更加轻量级的RL框架,以减少计算资源的消耗,并提高模型在处理跨模态任务时的响应速度。

  • 去掉一些基座仓,在RL为主的仓里VeRL是增长最快的(微软的Agent Lightning势头很强)

多模态生成

DPO-family

基于偏好的强化学习方法,称为 Reward Preference Optimization (RPO),用于主题驱动的文本到图像生成任务,通过引入 λ-Harmonic 奖励函数和 Bradley-Terry 偏好模型,实现了有效的模型训练和早停,提高了图像生成的质量和效率。[^9]

生成的GRPO-family

Flow-GRPO[^19] 的方法,用于通过在线强化学习(RL)改进流匹配模型,特别是在文本到图像(T2I)生成任务中。该方法通过将确定性的常微分方程(ODE)转换为具有相同边缘分布的随机微分方程(SDE)来引入随机性,并通过减少训练过程中的去噪步骤来提高训练效率。实验结果表明,Flow-GRPO 在复合图像生成、视觉文本渲染和人类偏好对齐任务上都取得了显著改进,同时几乎没有导致奖励黑客行为。(ps: 说实话我怎么觉得就是引入噪声后择优选一个)

图形修复

使用GRPO的变种算法来实现SOTA的被天气干扰的图像修复[^10]

多智能体RL

Agent RL 可以从一般是从LLM RL调整过来[^16]

且一般专注于六大能力维度的提升,并结合环境的工具调用来实现[^16]:

不同于多模态RL以GRPO family为主,Agent-RL 算法更加百花齐放[^16]:

实例

通过RL来训练出不同差异的agent,在联合作答中取得SOTA[^3]

MAPoRL使用了多智能体 PPO(Proximal Policy Optimization)算法来更新每个代理的策略。这个算法通过最大化每个代理的价值函数来进行训练,价值函数是基于累积奖励定义的。通过这种方式,每个代理都能学习如何在与其他代理的交互中最大化其长期奖励。[^4]

商业落地

金融场景的多agent RL实践。[^5]

待学习

  1. 理解单例精读 VRAG
  2. 生成单例精读
  3. RL系统优化(组网等)

Reinforcement Learning: An Overview[^8]

参考文献

[^1]: Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models

[^2]: ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification

[^3]: ACL25: Advancing Collaborative Debates with Role Differentiation through Multi-agent Reinforcement Learning

[^4]: ACL25: MAPoRL2: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning

[^5]: ACL25: FLAG-TRADER: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

[^6]: ACL24: Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback

[^7]: PPO: Proximal Policy Optimization Algorithms

[^8]: Reinforcement Learning: An Overview

[^9]: NeurIPS 2024: Subject-driven Text-to-Image Generation via Preference-based Reinforcement Learning

[^10]: NeurIPS 2025: Real-World Adverse Weather Image Restoration via Dual-Level Reinforcement Learning with High-Quality Cold Start

[^11]: DeepSeekMath: Pushing the limits of mathematical reasoning in open language models

[^12]: DAPO: An Open-Source LLM Reinforcement Learning System at Scale

[^15]: Back to basics: Revisiting reinforce style optimization for learning from human feedback in llms.

[^16]: The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

[^17]: Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

[^18]:NeurIPS 2025: Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning

[^19]:NeurIPS 2025: Flow-GRPO: Training Flow Matching Models via Online RL

Author

Shaojie Tan

Posted on

2025-11-19

Updated on

2025-11-25

Licensed under