LLM2D
EquiBench:通过等价性检查评估大型语言模型的代码推理能力
EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking
作者: Anjiang Wei, Jiannan Cao, Ran Li, Hongyu Chen, Yuhui Zhang, Ziheng Wang, Yaofeng Sun, Yuan Liu, Thiago S. F. X. Teixeira, Diyi Yang, Ke Wang, Alex Aiken
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12466v1

摘要

arXiv:2502.12466v1 任务类型: cross 摘要: 等价性检查,即确定两个程序在所有可能的输入下是否产生相同输出,是软件重构、测试和优化等广泛应用的基础。我们提出了等价性检查作为评估大型语言模型(LLMs)代码推理能力的一种新方法。我们引入了EquiBench,这是一个包含2400个程序对的数据集,涵盖了四种编程语言和六种类别。这些程序对是通过程序分析、编译器调度和超优化系统地生成的,涵盖了需要超越简单的语法变化进行深入语义推理的复杂结构变换。我们对17个最先进的LLMs进行的评估显示,OpenAI o3-mini达到最高的整体准确率为78.0%。在最具挑战性的类别中,最佳准确率为62.3%和68.8%,仅略微高于二分类中50%的随机基线,表明当前模型的代码推理能力仍有显著提升的空间。