摘要
arXiv:2504.00883v1 宣告类型: cross
摘要: 人们越来越关注增强多模态大型语言模型(MLLMs)的推理能力。作为在物理领域运行的人工智能代理的基础,基于视频的视觉空间智能(VSI)成为了MLLMs中最为关键的推理能力之一。本研究首次进行了一项深入研究,旨在通过R1-Zero-like训练提高MLLMs的视觉空间推理能力。技术上,我们首先发现,小到中型的Qwen2-VL模型无法通过思维链(CoT)提示激活其视觉空间推理能力。然后,我们通过GRPO训练结合精心编排的VSI-100k数据集,引入了用于改进视觉空间推理的方法,这遵循了DeepSeek-R1-Zero的方法。在研究过程中,我们确定即使是在小值的情况下,也需要保留KL惩罚项。仅使用120个GPU小时,从Qwen2-VL-2B微调而来的vsGRPO-2B模型相对于基础模型性能提高了12.1%,并且超越了GPT-4o。此外,从Qwen2-VL-7B微调而来的vsGRPO-7B模型在性能上达到了与开源模型LLaVA-NeXT-Video-72B相当的水平。另外,我们还将vsGRPO与监督微调和直接偏好优化基准进行了比较,并观察到了显著的优势性能。代码和数据集将在不久的将来发布。