Tag: Dataset - SHAOJIE'S BOOK

Posted 2026-06-25Updated 2026-07-03Artificial Intelligence18 minutes read (About 2772 words)

VLM RL Evaluation Datasets

导言

想用 AISBench 评测多模态 RL 后模型效果时，最容易误判的是把“多模态”当作一个整体类别。更精确的判断应该是：训练数据、奖励函数、输出格式和评测集必须在同一个能力域内闭合。

本文围绕 verl 当前常见的 Geo3K 多模态 RL 样例，以及新增的 TinyLLaVA-Video-R1-NextQA、multimodal-open-r1-8k-verified 两类数据，比较它们的规模、文本长度、模态、任务类型和 AISBench 评测匹配关系。