LLM2D

摘要

arXiv:2502.12466v1 任务类型: cross 摘要: 等价性检查，即确定两个程序在所有可能的输入下是否产生相同输出，是软件重构、测试和优化等广泛应用的基础。我们提出了等价性检查作为评估大型语言模型（LLMs）代码推理能力的一种新方法。我们引入了EquiBench，这是一个包含2400个程序对的数据集，涵盖了四种编程语言和六种类别。这些程序对是通过程序分析、编译器调度和超优化系统地生成的，涵盖了需要超越简单的语法变化进行深入语义推理的复杂结构变换。我们对17个最先进的LLMs进行的评估显示，OpenAI o3-mini达到最高的整体准确率为78.0%。在最具挑战性的类别中，最佳准确率为62.3%和68.8%，仅略微高于二分类中50%的随机基线，表明当前模型的代码推理能力仍有显著提升的空间。