摘要
arXiv:2504.06260v1 支撑类型: 新
摘要: 在工程和科学中,建立精确的现实世界模拟并调用数值求解器来回答定量问题是一项基本要求。我们介绍了FEABench,一个基准测试,用于评估大型语言模型(LLMs)和LLM代理使用有限元分析(FEA)模拟和解决物理、数学和工程问题的能力。我们提出了一种全面的评估方案,以研究LLMs通过推理自然语言问题描述并在COMSOL Multiphysics™软件上操作来端到端解决这些问题的能力,其中COMSOL Multiphysics™是一款FEA软件。此外,我们设计了一个语言模型代理,该代理能够通过应用程序编程接口(API)与软件交互,检查其输出,并使用工具在多次迭代中改进其解决方案。我们表现最好的策略有88%的时间生成可执行的API调用。能够成功与FEA软件交互并解决问题的LLMs,如我们的基准测试中的问题,将推动工程自动化领域的前沿。获得这种能力将增强LLMs的推理能力,结合数值求解器的精确性,并促进能够解决现实世界复杂问题的自主系统的开发。代码可在https://github.com/google/feabench获取。