LLM2D
评估LLM中的代码理解能力
Assessing Code Understanding in LLMs
作者: Cosimo Laneve, Alvise Span\`o, Dalila Ressi, Sabina Rossi, Michele Bugliesi
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00065v1

摘要

arXiv:2504.00065v1 交叉类型: 摘要: 我们对大型语言模型在代码理解方面的表现进行了实证评估,这些模型与保留语义的非平凡程序变换(如复制传播或常量折叠)相关。我们的研究结果表明,在不提供上下文的情况下,LLM在约41%的情况下无法判断语义等价性;而在提供简单通用上下文的情况下,这一比例降至29%。为了提高准确性,我们建议将LLM与代码优化工具集成,以增强训练并促进更稳健的程序理解。