LLM2D
MathCoder-VL:视觉与代码融合以增强多模态数学推理
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
作者: Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.10557v1

摘要

arXiv:2505.10557v1 类型: cross 摘要:自然语言图像字幕数据集广泛用于训练大型多模态模型,主要集中在自然场景上,而忽略了对问题解决至关重要的数学图表的复杂细节,阻碍了当前多模态大型语言模型在多模态数学推理方面的进步。为了解决这一问题,我们提出使用代码作为跨模态对齐的监督,因为代码本身包含了生成相应图表所需的所有信息,从而建立了两个模态之间精确的联系。具体而言,我们采用模型在环的方法共同开发了图像到代码模型和数据集,从而生成了一个图像到代码模型,命名为FigCodifier和ImgCode-8.6M数据集,这是迄今为止规模最大的图像-代码数据集。此外,我们利用FigCodifier合成了新的数学图表,然后构建了MM-MathInstruct-3M,这是一个高质量的多模态数学指令微调数据集。最后,我们推出了使用ImgCode-8.6M进行跨模态对齐训练的MathCoder-VL,并随后在MM-MathInstruct-3M上进行多模态数学问题解决的微调。我们的模型在所有六个指标上均实现了新的开源SOTA。值得注意的是,在MathVista的几何问题解决子集中,我们的模型超越了GPT-4o和Claude 3.5 Sonnet,分别实现了8.9%和9.2%的改进。数据集和模型将在https://github.com/mathllm/MathCoder发布。