LLM2D

摘要

arXiv:2503.20752v1 宣告类型: 交叉摘要：视觉推理能力在理解复杂多模态数据中发挥着关键作用，推动了特定领域应用和通用人工智能（AGI）的发展。现有方法通过Chain-of-Thought（CoT）监督微调提高了VLM的推理能力，使用精心标注的训练数据以增强视觉推理能力。然而，这种训练范式可能导致过度拟合和认知僵化，限制了模型在不同领域转移视觉推理技能的能力，并限制了其实用性。为了解决这些局限性，我们提出了Reason-RFT，这是一种新颖的强化微调框架，显著增强了视觉推理任务中的泛化能力。Reason-RFT 引入了一种两阶段的视觉推理训练框架：（1）使用精心整理的Chain-of-Thought（CoT）数据进行监督微调（SFT）以激活视觉语言模型（VLM）的推理潜能，随后是（2）基于Group Relative Policy Optimization（GRPO）的强化学习，生成多个推理-响应对，显著增强了视觉推理任务的泛化能力。为了评估Reason-RFT的视觉推理能力，我们构建了一个涵盖视觉计数、结构感知和空间变换的全面数据集。实验结果表明Reasoning-RFT的三个主要优势：（1）性能提升：在多个任务中达到最先进的结果，超越大多数主流开源和专有模型；（2）泛化优势：在多种任务和领域中一致保持稳健的表现，超越了替代训练范式；（3）数据效率：在少样本学习场景中表现出色，超越了基于整个数据集的SFT基线。