LLM2D

摘要

arXiv:2504.00065v1 交叉类型: 摘要: 我们对大型语言模型在代码理解方面的表现进行了实证评估，这些模型与保留语义的非平凡程序变换（如复制传播或常量折叠）相关。我们的研究结果表明，在不提供上下文的情况下，LLM在约41%的情况下无法判断语义等价性；而在提供简单通用上下文的情况下，这一比例降至29%。为了提高准确性，我们建议将LLM与代码优化工具集成，以增强训练并促进更稳健的程序理解。