摘要
arXiv:2502.12466v1 任务类型: cross
摘要: 等价性检查,即确定两个程序在所有可能的输入下是否产生相同输出,是软件重构、测试和优化等广泛应用的基础。我们提出了等价性检查作为评估大型语言模型(LLMs)代码推理能力的一种新方法。我们引入了EquiBench,这是一个包含2400个程序对的数据集,涵盖了四种编程语言和六种类别。这些程序对是通过程序分析、编译器调度和超优化系统地生成的,涵盖了需要超越简单的语法变化进行深入语义推理的复杂结构变换。我们对17个最先进的LLMs进行的评估显示,OpenAI o3-mini达到最高的整体准确率为78.0%。在最具挑战性的类别中,最佳准确率为62.3%和68.8%,仅略微高于二分类中50%的随机基线,表明当前模型的代码推理能力仍有显著提升的空间。