LLM2D

摘要

arXiv:2505.10557v1 类型: cross 摘要：自然语言图像字幕数据集广泛用于训练大型多模态模型，主要集中在自然场景上，而忽略了对问题解决至关重要的数学图表的复杂细节，阻碍了当前多模态大型语言模型在多模态数学推理方面的进步。为了解决这一问题，我们提出使用代码作为跨模态对齐的监督，因为代码本身包含了生成相应图表所需的所有信息，从而建立了两个模态之间精确的联系。具体而言，我们采用模型在环的方法共同开发了图像到代码模型和数据集，从而生成了一个图像到代码模型，命名为FigCodifier和ImgCode-8.6M数据集，这是迄今为止规模最大的图像-代码数据集。此外，我们利用FigCodifier合成了新的数学图表，然后构建了MM-MathInstruct-3M，这是一个高质量的多模态数学指令微调数据集。最后，我们推出了使用ImgCode-8.6M进行跨模态对齐训练的MathCoder-VL，并随后在MM-MathInstruct-3M上进行多模态数学问题解决的微调。我们的模型在所有六个指标上均实现了新的开源SOTA。值得注意的是，在MathVista的几何问题解决子集中，我们的模型超越了GPT-4o和Claude 3.5 Sonnet，分别实现了8.9%和9.2%的改进。数据集和模型将在https://github.com/mathllm/MathCoder发布。