LLM2D

摘要

arXiv:2504.08837v1 交叉类型：cross 摘要：最近，通过显式反思来解决困难问题的慢思考系统，如GPT-o1和DeepSeek-R1，展示了巨大的潜力。它们在各种数学和科学基准测试中显著优于最快思考模型，如GPT-4o。然而，它们的多模态推理能力仍然与最快思考模型相当。例如，GPT-o1在MathVista、MathVerse和MathVision等基准测试上的表现与快速思考模型相似。在本文中，我们希望通过强化学习（不依赖于蒸馏）来提升视觉语言模型的慢思考能力，从而推动该领域的最新技术。首先，我们使用一种名为选择性样本重放（SSR）的新技术来适应GRPO算法，以解决消失优势问题。尽管这种方法取得了出色的表现，但由此产生的RL训练模型的自我反思或自我验证能力有限。为了进一步促进慢思考，我们引入了强迫重新思考，它在RL训练初始展开的末尾添加一个文本重新思考触发器，明确要求进行自我反思推理步骤。通过结合这两种技术，我们的模型VL-Rethinker在MathVista、MathVerse和MathVision上的最新技术得分分别提高到80.3%、61.8%和43.9%。VL-Rethinker还在MMMU-Pro、EMMA和MEGA-Bench等多学科基准测试上实现了开源最新技术，与GPT-o1的差距缩小。