LLM2D

摘要

arXiv:2504.00883v2 通知类型: replace-cross 摘要：越来越多的注意力放在提高多模态大型语言模型（MLLMs）的推理能力上。作为在物理领域中运作的AI代理的基石，基于视频的空间视觉智能（VSI）成为了MLLMs中最关键的推理能力之一。本工作首次对通过R1-Zero-like训练提高MLLMs的空间视觉推理能力进行了深入研究。技术上，我们首先发现，对于中小型的Qwen2-VL模型，通过思维链（CoT）提示无法激活其空间视觉推理能力。然后，我们通过GRPO训练来提升空间视觉推理能力，并使用精心筛选的VSI-100k数据集，借鉴DeepSeek-R1-Zero的方法。在研究过程中，我们确认即使使用小值，也需要保留KL惩罚项。仅用120个GPU小时，基于Qwen2-VL-2B微调而来的vsGRPO-2B模型可以比基础模型高出12.1%，并且超过了GPT-4o。此外，基于Qwen2-VL-7B微调而来的vsGRPO-7B模型，其性能与最佳开源模型LLaVA-NeXT-Video-72B相当。我们还将vsGRPO与监督微调和直接偏好优化基线进行比较，并观察到了显著的性能优势。代码和数据集将在不久后提供。