LLM2D

摘要

arXiv:2504.08837v2 通知类型: replace-cross 摘要: 最近，像GPT-o1和DeepSeek-R1这样的慢思考系统通过显式的反思在解决具有挑战性的问题方面展示了巨大的潜力。在各种数学和科学基准测试中，它们明显优于如GPT-4o这类最好的快速思考模型。然而，它们的多模态推理能力与快速思考模型相当。例如，GPT-o1在MathVista、MathVerse和MathVision等基准测试中的表现与快速思考模型相似。在这项研究中，我们旨在利用强化学习（不依赖于蒸馏）来增强视觉语言模型的慢思考能力，从而推动技术前沿。首先，我们使用一种名为Selective Sample Replay (SSR)的新技术改编了GRPO算法，以解决消失优势的问题。尽管这种方法产生了强大的性能，但由此产生的RL训练模型表现出有限的自我反思或自我验证。为了进一步鼓励慢思考，我们引入了Forced Rethinking，它在RL训练的展开末尾添加了一个重新思考触发词，明确要求执行一次自我反思推理步骤。通过结合这两种技术，我们的模型VL-Rethinker在MathVista和MathVerse上的先进分数分别达到80.4%和63.5%。VL-Rethinker也在诸如MathVision、MMMU-Pro、EMMA和MEGA-Bench等多学科基准测试中取得了开源最佳性能，缩小了与OpenAI-o1的差距。我们的实验结果表明了我们方法的有效性。