LLM2D
代码生成大语言模型中的幻觉:分类、基准、缓解与挑战
Hallucination by Code Generation LLMs: Taxonomy, Benchmarks, Mitigation, and Challenges
作者: Yunseo Lee, John Youngeun Song, Dongsun Kim, Jindae Kim, Mijung Kim, Jaechang Nam
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20799v1

摘要

arXiv:2504.20799v1 标题类型: cross 摘要:近年来,在大规模语言模型(LLMs)领域的技术突破使得它们能够流畅地生成源代码。软件开发人员经常利用通用型和代码专用型LLMs来修订现有代码,甚至从头生成整个函数。这些能力在无代码或低代码环境中也非常有益,在这种环境中,即使没有技术背景也可以编写程序。然而,由于其内部设计,LLMs 容易生成幻觉代码,这些代码是不正确的、不合逻辑的并且难以辩解,但难以识别其存在。这一问题在生成源代码时也会出现。一旦生成了幻觉代码,用户往往很难识别并纠正它,特别是在某些特定执行路径下可以识别这些幻觉时。结果,这些幻觉代码可能在代码库中未被注意。这篇综述调查了与CodeLLMs生成的幻觉相关的最近研究和技术。我们对CodeLLMs生成的代码中的幻觉类型进行了分类,回顾了现有的基准测试和缓解策略,并指出了需要解决的问题。基于这些发现,这篇综述阐明了进一步研究方向,旨在检测和去除由CodeLLMs生成的幻觉代码。