LLM2D

摘要

arXiv:2503.20752v2 通告类型: replace-cross 摘要：视觉推理能力在理解复杂多模态数据方面发挥着关键作用，推动了特定领域应用和通用人工智能（AGI）的发展。现有方法通过链式思维（CoT）监督微调来提高VLM（视觉-语言模型）的推理能力，使用详细标注的训练数据来增强视觉推理能力。然而，这种训练方式可能导致过拟合和认知僵化，限制了模型跨领域的视觉推理技能的迁移，限制了其在现实世界中的应用。为了解决这些局限性，我们提出了Reason-RFT，这是一种新颖的强化微调框架，显著增强了视觉推理任务的一般化能力。Reason-RFT 引入了一种两阶段的视觉推理训练框架：（1）使用精心挑选的链式思维（CoT）数据的监督微调（SFT）激活视觉-语言模型（VLMs）的推理潜力，随后是（2）基于组相对策略优化（GRPO）的强化学习，生成多个推理-响应对，显著提高了视觉推理任务的一般化能力。为了评估Reason-RFT的视觉推理能力，我们构建了一个全面的数据集，涵盖了视觉计数、结构感知和空间变换等多个方面。实验结果展示了Reason-RFT的三个主要优势：（1）性能提升：在多个任务中取得了最先进的结果，优于大多数主流开源和专有模型；（2）一般化优越性：在各种任务和领域中保持了稳健的性能，优于其他训练范式；（3）数据效率：在少量样本学习场景中表现出色，超越了使用完整数据集的监督微调 baselines。项目网站：https://tanhuajie.github.io/ReasonRFT