摘要
arXiv:2501.04686v3 宣告类型: replace-cross
摘要:链式思考(CoT)推理被广泛用于增强大型语言模型(LLMs)的数学推理能力。过程监督的引入促使人们讨论如何提高测试时的可扩展性,从而解锁这些模型的系统2级思考能力。然而,在多模态数学推理中,高质量CoT训练数据的稀缺性阻碍了现有模型同时实现细致推理和精细验证的能力。在本文中,我们提出了一种新的框架,将系统2级思考引入多模态数学推理中。我们介绍了一个三模块的CoT数据合成过程,该过程集成了CoT蒸馏、轨迹格式重写和格式统一。这一过程生成了具有高质量CoT推理指令微调数据集的MMathCoT-1M。此外,我们实现了双视图轨迹标签自动化,旨在提高视觉定位的准确性和演绎链条的有效性,从而生成了DualMath-1.1M数据集。在MMathCoT-1M上训练的URSA-8B模型在六个流行的推理基准测试中达到了与同规模多模态LLM相当的新最佳性能(SOTA)。进一步在DualMath-1.1M数据集上训练URSA-8B产生了URSA-RM-8B,这是一种增强URSA-8B测试时性能的验证器,并且超过了强大的封闭源多模态MLLMs如GPT-4o。该模型权重、训练数据和代码都已经开源:https://github.com/URSA-MATH/URSA-MATH。