LLM2D
大型语言模型能理解中间表示吗?
Can Large Language Models Understand Intermediate Representations?
作者: Hailong Jiang, Jianfeng Zhu, Yao Wan, Bo Fang, Hongyu Zhang, Ruoming Jin, Qiang Guan
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.06854v1

摘要

arXiv:2502.06854v1 宣告类型: 交叉 摘要: 中间表示(IRs)是编译器设计和程序分析中的关键元素,但大型语言模型(LLMs)对其的理解仍然未被充分探索。本文提出了一项开创性的实证研究,调查了包括GPT-4、GPT-3、Gemma 2、LLaMA 3.1和Code Llama在内的LLMs在理解IRs方面的能力。我们分析了它们在四项任务上的表现:控制流图(CFG)重构、反汇编、代码总结和执行推理。我们的结果表明,虽然LLMs在解析IR语法和识别高层次结构方面表现出色,但在控制流推理、执行语义和循环处理方面存在困难。具体来说,它们往往误解分支指令,忽略关键的IR操作,并依赖基于启发式的推理,导致在CFG重构、IR反汇编和执行推理中的错误。该研究强调了对LLMs进行IR特定增强的必要性,建议在结构化的IR数据集上进行微调,并结合显式控制流模型以增强其理解和处理与IR相关任务的能力。