LLM2D

摘要

本文探讨了将“慢思考”能力融入多模态大型语言模型 (MLLM) 以解决多模态数学推理这一具有挑战性任务的问题。与依赖直接或快速思考的现有方法相反，我们的核心思想是逐步构建由原子动作组成的长链思维 (CoT)，引导 MLLM 执行复杂的推理。为此，我们设计了一个新颖的 AtomThink 框架，该框架由三个关键模块组成：(i) 一个 CoT 注释引擎，用于自动生成高质量的 CoT 注释以解决高质量视觉数学数据不足的问题；(ii) 一个原子步骤微调策略，用于联合优化 MLLM 和策略奖励模型 (PRM) 以进行逐步推理；以及 (iii) 四种不同的搜索策略，可与 PRM 一起应用以完成推理。此外，我们还提出了 AtomMATH，这是一个大型多模态长 CoT 数据集，以及一个用于数学任务的原子能力评估指标。大量的实验结果表明，提出的 AtomThink 显著提高了基线 MLLM 的性能，在 MathVista 上实现了大约 50% 的相对精度提升，在 MathVerse 上实现了 120% 的提升。为了支持多模态慢思考模型的发展，我们将公开发布我们的代码和数据集，网址为 https://github.com/Quinn777/AtomThink。