LLM2D

摘要

大型语言模型（LLMs）在数学推理方面，特别是在基于文本的数学问题上，展示了显著的能力。然而，当前的多模态大型语言模型（MLLMs），尤其是那些专门针对数学的模型，往往主要集中在解决几何问题上，而忽略了数学其他领域中丰富的视觉信息多样性。此外，这些专门数学MLLMs的几何信息通常来源于几个公开数据集，这些数据集在多样性和复杂性方面通常有限。为了解决这些限制，我们旨在构建一个名为MathVL的微调数据集，并通过在MathVL上进行监督微调（SFT），开发一系列称为MathGLM-Vision的专门数学MLLMs，采用各种参数规模的主干模型。为了广泛评估MathGLM-Vision的有效性，我们在几个公开基准和我们精心策划的包含2000个问题的MathVL-test上进行了实验。实验结果表明，与一些现有模型（包括主干模型和开源数学MLLMs）相比，MathGLM-Vision取得了显著的改进。这些发现表明，多样化的数据集在提升MLLMs的数学推理能力方面具有重要意义。