LLM2D
大规模语言模型在数学建模中的应用:向着自然语言与数学语言之间鸿沟的 bridging 努力
LLMs for Mathematical Modeling: Towards Bridging the Gap between Natural and Mathematical Languages
作者: Xuhan Huang, Qingning Shen, Yan Hu, Anningzhe Gao, Benyou Wang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2405.13144v3

摘要

arXiv:2405.13144v3 宣告类型: 替换 摘要:大规模语言模型(LLMs)在各种自然语言处理任务中表现出色,但在数学推理方面的能力仍然是一个重要挑战。弥合自然语言和数学语言之间的差距需要先进的推理能力,接近人工通用智能(AGI)的水平。然而,评价仍然是一个挑战,因为完美地反映现实是固有的难以实现的,传统的评估方法如手工或直接比较数学声明(Ramamonjison等人,2023)对于评估真实的建模能力是不足的。我们提出了一种过程导向的框架来评估LLMs构建数学模型的能力,使用求解器将输出与真实情况对比。引入了Mamo基准,包含1209个问题,涵盖常微分方程、线性规划和混合整数线性规划,使自动评估建模准确性成为可能。结果显示,现有的LLMs在复杂的数学建模任务中面临挑战,较大的模型表现出更好的性能,而开源模型在简单情况下仍然具有竞争力,但在更具挑战性的问题上仍逊于专有模型。