LLM2D
通过R1-Zero-like训练提高视觉-空间推理能力
Improved Visual-Spatial Reasoning via R1-Zero-Like Training
作者: Zhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.00883v2

摘要

arXiv:2504.00883v2 通知类型: replace-cross 摘要:越来越多的注意力放在提高多模态大型语言模型(MLLMs)的推理能力上。作为在物理领域中运作的AI代理的基石,基于视频的空间视觉智能(VSI)成为了MLLMs中最关键的推理能力之一。本工作首次对通过R1-Zero-like训练提高MLLMs的空间视觉推理能力进行了深入研究。技术上,我们首先发现,对于中小型的Qwen2-VL模型,通过思维链(CoT)提示无法激活其空间视觉推理能力。然后,我们通过GRPO训练来提升空间视觉推理能力,并使用精心筛选的VSI-100k数据集,借鉴DeepSeek-R1-Zero的方法。在研究过程中,我们确认即使使用小值,也需要保留KL惩罚项。仅用120个GPU小时,基于Qwen2-VL-2B微调而来的vsGRPO-2B模型可以比基础模型高出12.1%,并且超过了GPT-4o。此外,基于Qwen2-VL-7B微调而来的vsGRPO-7B模型,其性能与最佳开源模型LLaVA-NeXT-Video-72B相当。我们还将vsGRPO与监督微调和直接偏好优化基线进行比较,并观察到了显著的性能优势。代码和数据集将在不久后提供。