LLM2D

摘要

arXiv:2504.20799v1 标题类型: cross 摘要：近年来，在大规模语言模型（LLMs）领域的技术突破使得它们能够流畅地生成源代码。软件开发人员经常利用通用型和代码专用型LLMs来修订现有代码，甚至从头生成整个函数。这些能力在无代码或低代码环境中也非常有益，在这种环境中，即使没有技术背景也可以编写程序。然而，由于其内部设计，LLMs 容易生成幻觉代码，这些代码是不正确的、不合逻辑的并且难以辩解，但难以识别其存在。这一问题在生成源代码时也会出现。一旦生成了幻觉代码，用户往往很难识别并纠正它，特别是在某些特定执行路径下可以识别这些幻觉时。结果，这些幻觉代码可能在代码库中未被注意。这篇综述调查了与CodeLLMs生成的幻觉相关的最近研究和技术。我们对CodeLLMs生成的代码中的幻觉类型进行了分类，回顾了现有的基准测试和缓解策略，并指出了需要解决的问题。基于这些发现，这篇综述阐明了进一步研究方向，旨在检测和去除由CodeLLMs生成的幻觉代码。