摘要
大型语言模型(LLMs)如 GPT4 在代码生成方面取得了令人印象深刻的成果,这引发了利用知识蒸馏(例如 Code Evol-Instruct)在开源模型中复制这些能力的趋势。然而,这些努力往往忽视了响应质量这一关键方面,过度依赖教师模型进行直接响应蒸馏。这种范式,尤其对于复杂的指令,会导致合成数据质量下降,从而影响知识蒸馏过程。为此,我们的研究引入了自适应模块化响应演化 (AMR-Evol) 框架,该框架采用两阶段过程来改进响应蒸馏。第一阶段,模块化分解,将直接响应分解成更易于管理的子模块。第二阶段,自适应响应演化,使用相关功能模块自动演化响应。我们使用三个流行的代码基准(HumanEval、MBPP 和 EvalPlus)进行的实验证明了 AMR-Evol 框架优于基线响应蒸馏方法。通过与在类似数据规模上训练的开源代码 LLM 进行比较,我们观察到性能提升:HumanEval-Plus 上超过 +3.0 个点,MBPP-Plus 上超过 +1.0 个点,这突出了我们框架的有效性。我们的代码可在 https://github.com/ChiYeungLaw/AMR-Evol 获取。