LLM2D

摘要

arXiv:2504.00883v1 宣告类型: cross 摘要: 人们越来越关注增强多模态大型语言模型(MLLMs)的推理能力。作为在物理领域运行的人工智能代理的基础，基于视频的视觉空间智能(VSI)成为了MLLMs中最为关键的推理能力之一。本研究首次进行了一项深入研究，旨在通过R1-Zero-like训练提高MLLMs的视觉空间推理能力。技术上，我们首先发现，小到中型的Qwen2-VL模型无法通过思维链(CoT)提示激活其视觉空间推理能力。然后，我们通过GRPO训练结合精心编排的VSI-100k数据集，引入了用于改进视觉空间推理的方法，这遵循了DeepSeek-R1-Zero的方法。在研究过程中，我们确定即使是在小值的情况下，也需要保留KL惩罚项。仅使用120个GPU小时，从Qwen2-VL-2B微调而来的vsGRPO-2B模型相对于基础模型性能提高了12.1%，并且超越了GPT-4o。此外，从Qwen2-VL-7B微调而来的vsGRPO-7B模型在性能上达到了与开源模型LLaVA-NeXT-Video-72B相当的水平。另外，我们还将vsGRPO与监督微调和直接偏好优化基准进行了比较，并观察到了显著的优势性能。代码和数据集将在不久的将来发布。