摘要
arXiv:2503.20752v2 通告类型: replace-cross
摘要:视觉推理能力在理解复杂多模态数据方面发挥着关键作用,推动了特定领域应用和通用人工智能(AGI)的发展。现有方法通过链式思维(CoT)监督微调来提高VLM(视觉-语言模型)的推理能力,使用详细标注的训练数据来增强视觉推理能力。然而,这种训练方式可能导致过拟合和认知僵化,限制了模型跨领域的视觉推理技能的迁移,限制了其在现实世界中的应用。为了解决这些局限性,我们提出了Reason-RFT,这是一种新颖的强化微调框架,显著增强了视觉推理任务的一般化能力。Reason-RFT 引入了一种两阶段的视觉推理训练框架:(1)使用精心挑选的链式思维(CoT)数据的监督微调(SFT)激活视觉-语言模型(VLMs)的推理潜力,随后是(2)基于组相对策略优化(GRPO)的强化学习,生成多个推理-响应对,显著提高了视觉推理任务的一般化能力。为了评估Reason-RFT的视觉推理能力,我们构建了一个全面的数据集,涵盖了视觉计数、结构感知和空间变换等多个方面。实验结果展示了Reason-RFT的三个主要优势:(1)性能提升:在多个任务中取得了最先进的结果,优于大多数主流开源和专有模型;(2)一般化优越性:在各种任务和领域中保持了稳健的性能,优于其他训练范式;(3)数据效率:在少量样本学习场景中表现出色,超越了使用完整数据集的监督微调 baselines。项目网站:https://tanhuajie.github.io/ReasonRFT