LLM2D
大型语言模型能捕获代码功能等价性方面的哪些内容?
What can Large Language Models Capture about Code Functional Equivalence?
作者: Nickil Maveli, Antonio Vergari, Shay B. Cohen
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2408.11081v2

摘要

arXiv:2408.11081v2 Announce Type: replace-cross 摘要:代码LLM,在大型代码语料库上预训练的代码LLM,在学习代码结构和语法的丰富表示方面取得了显著进展,并成功用于生成或分类代码片段。与此同时,理解它们是否能够做到这一点,以及它们能够做到何种程度,仍然是一个开放的问题。在本文中,我们通过引入SeqCoBench来解决这个问题,SeqCoBench是一个用于系统评估代码LLM捕捉代码功能等价性的基准。SeqCoBench包含超过20种代码转换,这些转换要么保留,要么改变Python程序的语义。我们在不同的设置中进行了广泛的评估,包括在最新的(代码)LLM上进行零样本和参数高效微调方法,以查看它们是否能够区分SeqCoBench中语义等价或不同的代码对。我们发现,这些LLM在性能上的差距与基于匹配的检索分数之间的差距很小,两种方法都表现出对代码语义理解的担忧性的不足。