LLM2D
代码生成大语言模型中的幻觉:分类、基准、缓解与挑战
Hallucination by Code Generation LLMs: Taxonomy, Benchmarks, Mitigation, and Challenges
作者: Yunseo Lee, John Youngeun Song, Dongsun Kim, Jindae Kim, Mijung Kim, Jaechang Nam
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2504.20799v2

摘要

arXiv:2504.20799v2 文章类型: replace-cross 摘要:近年来,在大型语言模型(LLMs)领域取得的技术突破使它们能够流畅地生成源代码。软件开发人员经常利用通用和代码专门化的LLMs来修订现有代码,甚至从头生成整个函数。这些能力在无代码或低代码环境中也非常有益,在这种环境中,即使没有技术背景也可以编写程序。然而,由于其内部设计,LLMs很容易生成幻觉代码,即不正确、不合逻辑且无法证明的信息,但这些幻觉难以识别其存在。这个问题在生成源代码时也会出现。一旦生成了幻觉代码,用户通常难以识别和修复它,尤其是在某些执行路径下可以识别这些幻觉的情况下。因此,幻觉代码可能在代码库中未被注意。本文综述了与CodeLLMs生成的幻觉相关的近期研究和技术。我们对CodeLLMs生成的代码中的幻觉类型进行了分类,回顾了现有的基准测试和缓解策略,并识别了存在的挑战。基于这些发现,本文概述了进一步的研究方向,以检测和移除由CodeLLMs生成的幻觉。