LLM2D
通过符号-神经整合增强多模态大语言模型的几何问题求解能力
Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration
作者: Yicheng Pan, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Jun Du, Jianshu Zhang, Quan Liu, Jianqing Gao, Feng Ma
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.12773v1

摘要

arXiv:2504.12773v1 交叉类型: cross 摘要: 近期在多模态大型语言模型(MLLMs)方面的进展已经在通用领域取得了显著进展,并在多模态数学推理方面显示出前景。然而,将MLLMs应用于几何问题求解(GPS)仍具有挑战性,原因在于缺乏精确的逐步解决方案数据以及推理过程中的严重幻觉现象。在这篇论文中,我们提出了GeoGen,一个可以自动生成几何图示的逐步推理路径的流水线。通过利用精确的符号推理,GeoGen 生成了大量高质量的问题-答案对。为了进一步增强MLLMs的逻辑推理能力,我们训练了GeoLogic,这是一个使用GeoGen生成的合成数据训练的大型语言模型(LLM)。作为自然语言和符号系统之间的桥梁,GeoLogic 使符号工具能够验证MLLM输出,从而使推理过程更加严谨,并减轻幻觉现象。实验结果表明,我们的方法持续改善了MLLMs的表现,通过几何推理任务的基准测试取得了显著成果。这种改进源于我们将大型语言模型和符号系统的优点进行了集成,这为GPS任务提供了一种更可靠且可解释的方法。代码可在 https://github.com/ycpNotFound/GeoGen 获取。