LLM2D

摘要

大型语言模型 (LLMs) 在自然语言处理任务方面的最新进展显著提升了其理解自然语言和代码的能力，推动了其在自然语言到代码 (NL2Code) 和代码摘要等任务中的应用。然而，LLMs 容易产生幻觉——偏离预期意义的输出。由于编程语言和自然语言之间错综复杂的相互作用，检测代码摘要中的幻觉尤其困难。我们引入了一个首创的数据集，包含约 10,000 个样本，专门用于检测代码摘要中的幻觉。我们进一步提出了一种新颖的实体追踪框架 (ETF)，该框架 a) 利用静态程序分析从程序中识别代码实体，以及 b) 使用 LLMs 来映射和验证这些实体及其在生成的代码摘要中的意图。我们的实验分析证明了该框架的有效性，F1 得分为 0.73。这种方法提供了一种可解释的方法来通过对实体进行接地来检测幻觉，使我们能够评估摘要的准确性。