摘要
arXiv:2504.08837v1 交叉类型:cross
摘要:最近,通过显式反思来解决困难问题的慢思考系统,如GPT-o1和DeepSeek-R1,展示了巨大的潜力。它们在各种数学和科学基准测试中显著优于最快思考模型,如GPT-4o。然而,它们的多模态推理能力仍然与最快思考模型相当。例如,GPT-o1在MathVista、MathVerse和MathVision等基准测试上的表现与快速思考模型相似。在本文中,我们希望通过强化学习(不依赖于蒸馏)来提升视觉语言模型的慢思考能力,从而推动该领域的最新技术。首先,我们使用一种名为选择性样本重放(SSR)的新技术来适应GRPO算法,以解决消失优势问题。尽管这种方法取得了出色的表现,但由此产生的RL训练模型的自我反思或自我验证能力有限。为了进一步促进慢思考,我们引入了强迫重新思考,它在RL训练初始展开的末尾添加一个文本重新思考触发器,明确要求进行自我反思推理步骤。通过结合这两种技术,我们的模型VL-Rethinker在MathVista、MathVerse和MathVision上的最新技术得分分别提高到80.3%、61.8%和43.9%。VL-Rethinker还在MMMU-Pro、EMMA和MEGA-Bench等多学科基准测试上实现了开源最新技术,与GPT-o1的差距缩小。