LLM2D

摘要

arXiv:2504.08837v3 宣告类型: replace-cross 摘要: 最近，像GPT-o1和DeepSeek-R1这样的慢思考系统通过显式反思展示了解决难题的巨大潜力。它们在各种数学和科学基准测试中显著优于最快的思考模型GPT-4o。然而，它们的多模态推理能力仍与快速思考模型相当。例如，GPT-o1在MathVista、MathVerse和MathVision等基准测试中的表现与快速思考模型相当。在本文中，我们旨在通过强化学习（不依赖于蒸馏）来增强视觉语言模型的慢思考能力，从而推动技术前沿。首先，我们采用了一种名为选择性样本重放（SSR）的新技术来解决逐渐消失的优势问题。虽然这种方法取得了很强的表现，但由此产生的通过强化学习训练的模型表现出有限的自我反思或自我验证能力。为了进一步鼓励慢思考，我们引入了强制重新思考，这种方法在强化学习训练过程中在 rollout 的末尾附加一个重新思考触发标记，明确强制执行一个自我反思推理步骤。通过结合这两种技术，我们的模型 VL-Rethinker 在 MathVista 和 MathVerse 上分别取得了 80.4% 和 63.5% 的最先进的得分。VL-Rethinker 也在 MathVision、MMMU-Pro、EMMA 和 MEGA-Bench 等多学科基准测试中实现了开源最先进的结果，与 OpenAI-o1 的差距缩小。我们的实验证明了我们方法的有效性。