LLM2D

摘要

arXiv:2503.24376v1 宣告类型：交叉摘要：近期在Chain of Thought（CoT）生成方面的进展显著提升了大型语言模型（LLMs）的推理能力，强化学习（RL）作为有效的后训练方法逐渐崭露头角。多模态大型语言模型（MLLMs）继承了这种推理能力，但在需要感知和逻辑推理相结合的任务中仍相对未被探索。为解决这一问题，我们引入了SEED-Bench-R1，这是一个旨在系统评估MLLMs感知理解后训练方法的基准测试。它包含了复杂的实际视频和复杂的日常规划任务，并以多项选择题的形式呈现，需要复杂的感知和推理能力。SEED-Bench-R1 通过三级层次评估泛化能力：分布内、跨环境和跨环境任务场景，并提供了一个带有易于验证的参考答案的大规模培训数据集。以Qwen2-VL-Instruct-7B为基模型，我们将RL与监督微调（SFT）进行比较，显示了RL在数据效率和内外分布任务上的优越性能，甚至在长视频基准测试（LongVideoBench）等一般视频理解基准测试中优于SFT。我们的详细分析表明，RL提升了视觉感知但经常产生不那么逻辑连贯的推理链。我们指出了关键限制，如不一致的推理和忽视的视觉线索，并建议在基本模型推理、奖励建模以及噪声信号下的RL稳健性方面的未来改进。