LLM2D
代码复制猫困境:揭开基于LLM的代码生成中的重复之谜
Code Copycat Conundrum: Demystifying Repetition in LLM-based Code Generation
作者: Mingwei Liu, Juntao Li, Ying Wang, Xueying Du, Zuoyu Ou, Qiuyuan Chen, Bingxu An, Zhao Wei, Yong Xu, Fangming Zou, Xin Peng, Yiling Lou
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.12608v1

摘要

arXiv:2504.12608v1 类型: cross 摘要: 尽管在代码生成方面取得了近期在大语言模型(LLMs)方面的进展,但LLMs生成的代码的质量仍然面临重大挑战。一个主要问题是代码重复,指的是模型生成结构性冗余代码的倾向,导致效率低下和降低可读性。为解决这一问题,我们首次通过使用三种广泛使用的基准测试来评估19个最先进的代码LLMs中的重复现象及其本质,进行了一项实证研究。我们的研究包括定量和定性分析,揭示重复现象普遍存在且在不同程度和粒度上表现出来,包括字符、语句和块级别。我们进一步总结了20种重复模式。基于我们的发现,我们提出了一种基于规则的技术DeRep,用于检测和减轻生成代码中的重复。我们使用开源基准和工业环境对DeRep进行了评估。结果表明,DeRep在减少重复(在rep-3、rep-line和sim-line指标上分别提高了91.3%、93.5%和79.9%)和提高代码质量(相对于贪婪搜索的Pass@1提高了208.3%)方面显著优于基线。此外,集成DeRep还能提高现有重复缓解方法的性能,Pass@1提高幅度从53.7%到215.7%不等。