Multimodal Generation Evaluation
导言
多模态生成 RL 的评测不能沿用 VLM 问答评测的一套逻辑。理解任务可以用正确答案、选项或短文本验证;生成任务还要评价 视觉质量、语义一致、运动时序、编辑边界、音频质量、音画同步和人类偏好。
因此,评测方案要先回答一个问题:训练时 reward 优化的是哪一种生成能力,最终 benchmark 是否真的测了同一种能力。本文把 AISBench、VBench、VEFX-Bench、Flow-Factory 和 VeRL-Omni 放在一起,整理一个后续实验可执行的评测地图。