摘要
arXiv:2503.20752v1 宣告类型: 交叉
摘要:视觉推理能力在理解复杂多模态数据中发挥着关键作用,推动了特定领域应用和通用人工智能(AGI)的发展。现有方法通过Chain-of-Thought(CoT)监督微调提高了VLM的推理能力,使用精心标注的训练数据以增强视觉推理能力。然而,这种训练范式可能导致过度拟合和认知僵化,限制了模型在不同领域转移视觉推理技能的能力,并限制了其实用性。为了解决这些局限性,我们提出了Reason-RFT,这是一种新颖的强化微调框架,显著增强了视觉推理任务中的泛化能力。Reason-RFT 引入了一种两阶段的视觉推理训练框架:(1)使用精心整理的Chain-of-Thought(CoT)数据进行监督微调(SFT)以激活视觉语言模型(VLM)的推理潜能,随后是(2)基于Group Relative Policy Optimization(GRPO)的强化学习,生成多个推理-响应对,显著增强了视觉推理任务的泛化能力。为了评估Reason-RFT的视觉推理能力,我们构建了一个涵盖视觉计数、结构感知和空间变换的全面数据集。实验结果表明Reasoning-RFT的三个主要优势:(1)性能提升:在多个任务中达到最先进的结果,超越大多数主流开源和专有模型;(2)泛化优势:在多种任务和领域中一致保持稳健的表现,超越了替代训练范式;(3)数据效率:在少样本学习场景中表现出色,超越了基于整个数据集的SFT基线。