摘要
arXiv:2502.09183v1 类型: cross
摘要: 随着大型语言模型(LLMs)的兴起,代码生成已经引起了越来越多的关注。许多研究通过合成代码相关指令数据并应用监督微调来发展强大的代码LLMs。然而,这些方法受到教师模型蒸馏的限制,并且忽略了通过自我生成的代码进行迭代 refinement 的潜在价值。在本文中,我们提出了自适应批评精炼(ACR),使模型能够通过自我生成的代码和外部批评来精炼自己,而不是直接模仿教师模型的代码响应。具体来说,ACR 包括一个综合评分系统,其中LLM作为评判者来评估代码响应的质量,以及一个选择性批评策略,其中LLM作为批评者来批评自我生成的低质量代码响应。我们通过迭代应用ACR 开发了RefineCoder系列,在多个代码生成基准上实现了持续的性能提升。与同规模的基线相比,我们提出的RefineCoder系列可以在使用更少数据的情况下实现相当甚至更优的性能。