LLM2D

摘要

arXiv:2504.10415v1 宣布类型: cross 摘要：科学方程发现是科学进步历史中的一个基本任务，它使得能够推导出规范自然现象的定律。最近，大型语言模型（LLMs）因有可能利用嵌入的科学知识生成假设而对这一任务产生了兴趣。然而，评估这些方法的真实发现能力仍然是一个挑战，因为现有的基准测试往往依赖于常见的方程，这些方程容易被LLMs记忆，导致夸大了性能指标，这些指标并不能反映真实的发现。在本文中，我们介绍了LLM-SRBench，这是一个全面的基准测试，包含239个具有挑战性的问题，专门设计用于评估基于LLM的科学方程发现方法，同时防止简单的记忆。我们的基准测试包括两大类：LSR-Transform，它将常见的物理模型转化为不太常见的数学表示，以测试超出记忆形式的推理，以及LSR-Synth，它引入了合成的、以发现为导向的问题，需要数据驱动的推理。通过使用公开和封闭的LLM进行广泛的评估，我们发现迄今为止表现最好的系统也只实现了31.5%的符号准确性。这些发现突显了科学方程发现的挑战，将LLM-SRBench定位为未来研究的宝贵资源。