摘要
arXiv:2503.24376v1 宣告类型:交叉
摘要:近期在Chain of Thought(CoT)生成方面的进展显著提升了大型语言模型(LLMs)的推理能力,强化学习(RL)作为有效的后训练方法逐渐崭露头角。多模态大型语言模型(MLLMs)继承了这种推理能力,但在需要感知和逻辑推理相结合的任务中仍相对未被探索。为解决这一问题,我们引入了SEED-Bench-R1,这是一个旨在系统评估MLLMs感知理解后训练方法的基准测试。它包含了复杂的实际视频和复杂的日常规划任务,并以多项选择题的形式呈现,需要复杂的感知和推理能力。SEED-Bench-R1 通过三级层次评估泛化能力:分布内、跨环境和跨环境任务场景,并提供了一个带有易于验证的参考答案的大规模培训数据集。以Qwen2-VL-Instruct-7B为基模型,我们将RL与监督微调(SFT)进行比较,显示了RL在数据效率和内外分布任务上的优越性能,甚至在长视频基准测试(LongVideoBench)等一般视频理解基准测试中优于SFT。我们的详细分析表明,RL提升了视觉感知但经常产生不那么逻辑连贯的推理链。我们指出了关键限制,如不一致的推理和忽视的视觉线索,并建议在基本模型推理、奖励建模以及噪声信号下的RL稳健性方面的未来改进。