摘要
arXiv:2504.10415v1 宣布类型: cross
摘要:科学方程发现是科学进步历史中的一个基本任务,它使得能够推导出规范自然现象的定律。最近,大型语言模型(LLMs)因有可能利用嵌入的科学知识生成假设而对这一任务产生了兴趣。然而,评估这些方法的真实发现能力仍然是一个挑战,因为现有的基准测试往往依赖于常见的方程,这些方程容易被LLMs记忆,导致夸大了性能指标,这些指标并不能反映真实的发现。在本文中,我们介绍了LLM-SRBench,这是一个全面的基准测试,包含239个具有挑战性的问题,专门设计用于评估基于LLM的科学方程发现方法,同时防止简单的记忆。我们的基准测试包括两大类:LSR-Transform,它将常见的物理模型转化为不太常见的数学表示,以测试超出记忆形式的推理,以及LSR-Synth,它引入了合成的、以发现为导向的问题,需要数据驱动的推理。通过使用公开和封闭的LLM进行广泛的评估,我们发现迄今为止表现最好的系统也只实现了31.5%的符号准确性。这些发现突显了科学方程发现的挑战,将LLM-SRBench定位为未来研究的宝贵资源。