Multimodal Generation Evaluation

导言

多模态生成 RL 的评测不能沿用 VLM 问答评测的一套逻辑。理解任务可以用正确答案、选项或短文本验证;生成任务还要评价 视觉质量、语义一致、运动时序、编辑边界、音频质量、音画同步和人类偏好

因此,评测方案要先回答一个问题:训练时 reward 优化的是哪一种生成能力,最终 benchmark 是否真的测了同一种能力。本文把 AISBench、VBench、VEFX-Bench、Flow-Factory 和 VeRL-Omni 放在一起,整理一个后续实验可执行的评测地图。

Read more

VLM RL Evaluation Datasets

导言

想用 AISBench 评测多模态 RL 后模型效果时,最容易误判的是把“多模态”当作一个整体类别。更精确的判断应该是:训练数据、奖励函数、输出格式和评测集必须在同一个能力域内闭合

本文围绕 verl 当前常见的 Geo3K 多模态 RL 样例,以及新增的 TinyLLaVA-Video-R1-NextQAmultimodal-open-r1-8k-verified 两类数据,比较它们的规模、文本长度、模态、任务类型和 AISBench 评测匹配关系。

Read more