LLM2D
重新思考代码生成中大语言模型的重复问题
Rethinking Repetition Problems of LLMs in Code Generation
作者: Yihong Dong, Yuchen Liu, Xue Jiang, Zhi Jin, Ge Li
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.10402v1

摘要

arXiv:2505.10402v1 类型: cross 摘要:随着神经语言模型的发展,代码生成的性能得到了显著提升。然而,在生成过程中重复的问题仍然存在。以往的工作主要集中在内容重复,这只是代码生成中更广泛重复问题的一小部分。一个更加普遍和具有挑战性的问题是结构重复。在结构重复中,重复的代码表现出各种模式,但具有固定的结构,这可以在语法中本原地反映出来。在这篇文章中,我们正式定义了结构重复,并提出了一种基于语法的重复惩罚方法(RPG, Repetition Penalization based on Grammar),以缓解代码生成中大规模语言模型(LLMs)的重复问题。具体而言,RPG 首先利用语法规则在代码生成过程中识别重复问题,然后战略性地降低对重复贡献的关键令牌的似然性,从而缓解代码生成中的重复问题。为了促进这项研究,我们构建了一个新的数据集 CodeRepetEval,以全面评估缓解代码生成中重复问题的方法。广泛的实验结果表明,RPG 在 CodeRepetEval 数据集以及 HumanEval 和 MBPP 基准上显著优于表现最好的基线方法,有效地减少了重复并提高了生成代码的质量。