LLM2D
AtomThink:一种用于多模态数学推理的慢思考框架
AtomThink: A Slow Thinking Framework for Multimodal Mathematical Reasoning
作者: Kun Xiang, Zhili Liu, Zihao Jiang, Yunshuang Nie, Runhui Huang, Haoxiang Fan, Hanhui Li, Weiran Huang, Yihan Zeng, Jianhua Han, Lanqing Hong, Hang Xu, Xiaodan Liang
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.11930v2

摘要

本文探讨了将“慢思考”能力融入多模态大型语言模型 (MLLM) 以解决多模态数学推理这一具有挑战性任务的问题。与依赖直接或快速思考的现有方法相反,我们的核心思想是逐步构建由原子动作组成的长链思维 (CoT),引导 MLLM 执行复杂的推理。为此,我们设计了一个新颖的 AtomThink 框架,该框架由三个关键模块组成:(i) 一个 CoT 注释引擎,用于自动生成高质量的 CoT 注释以解决高质量视觉数学数据不足的问题;(ii) 一个原子步骤微调策略,用于联合优化 MLLM 和策略奖励模型 (PRM) 以进行逐步推理;以及 (iii) 四种不同的搜索策略,可与 PRM 一起应用以完成推理。此外,我们还提出了 AtomMATH,这是一个大型多模态长 CoT 数据集,以及一个用于数学任务的原子能力评估指标。大量的实验结果表明,提出的 AtomThink 显著提高了基线 MLLM 的性能,在 MathVista 上实现了大约 50% 的相对精度提升,在 MathVerse 上实现了 120% 的提升。为了支持多模态慢思考模型的发展,我们将公开发布我们的代码和数据集,网址为 https://github.com/Quinn777/AtomThink。