LLM2D

摘要

arXiv:2408.11081v2 Announce Type: replace-cross 摘要:代码LLM，在大型代码语料库上预训练的代码LLM，在学习代码结构和语法的丰富表示方面取得了显著进展，并成功用于生成或分类代码片段。与此同时，理解它们是否能够做到这一点，以及它们能够做到何种程度，仍然是一个开放的问题。在本文中，我们通过引入SeqCoBench来解决这个问题，SeqCoBench是一个用于系统评估代码LLM捕捉代码功能等价性的基准。SeqCoBench包含超过20种代码转换，这些转换要么保留，要么改变Python程序的语义。我们在不同的设置中进行了广泛的评估，包括在最新的（代码）LLM上进行零样本和参数高效微调方法，以查看它们是否能够区分SeqCoBench中语义等价或不同的代码对。我们发现，这些LLM在性能上的差距与基于匹配的检索分数之间的差距很小，两种方法都表现出对代码语义理解的担忧性的不足。