LLM2D
MathGLM-Vision:利用多模态大型语言模型解决数学问题
MathGLM-Vision: Solving Mathematical Problems with Multi-Modal Large Language Model
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13729v1

摘要

大型语言模型(LLMs)在数学推理方面,特别是在基于文本的数学问题上,展示了显著的能力。然而,当前的多模态大型语言模型(MLLMs),尤其是那些专门针对数学的模型,往往主要集中在解决几何问题上,而忽略了数学其他领域中丰富的视觉信息多样性。此外,这些专门数学MLLMs的几何信息通常来源于几个公开数据集,这些数据集在多样性和复杂性方面通常有限。为了解决这些限制,我们旨在构建一个名为MathVL的微调数据集,并通过在MathVL上进行监督微调(SFT),开发一系列称为MathGLM-Vision的专门数学MLLMs,采用各种参数规模的主干模型。为了广泛评估MathGLM-Vision的有效性,我们在几个公开基准和我们精心策划的包含2000个问题的MathVL-test上进行了实验。实验结果表明,与一些现有模型(包括主干模型和开源数学MLLMs)相比,MathGLM-Vision取得了显著的改进。这些发现表明,多样化的数据集在提升MLLMs的数学推理能力方面具有重要意义。