LLM2D

摘要

arXiv:2405.13144v3 宣告类型: 替换摘要：大规模语言模型（LLMs）在各种自然语言处理任务中表现出色，但在数学推理方面的能力仍然是一个重要挑战。弥合自然语言和数学语言之间的差距需要先进的推理能力，接近人工通用智能（AGI）的水平。然而，评价仍然是一个挑战，因为完美地反映现实是固有的难以实现的，传统的评估方法如手工或直接比较数学声明（Ramamonjison等人，2023）对于评估真实的建模能力是不足的。我们提出了一种过程导向的框架来评估LLMs构建数学模型的能力，使用求解器将输出与真实情况对比。引入了Mamo基准，包含1209个问题，涵盖常微分方程、线性规划和混合整数线性规划，使自动评估建模准确性成为可能。结果显示，现有的LLMs在复杂的数学建模任务中面临挑战，较大的模型表现出更好的性能，而开源模型在简单情况下仍然具有竞争力，但在更具挑战性的问题上仍逊于专有模型。