LLM2D

摘要

大型语言模型（LLMs）如 GPT4 在代码生成方面取得了令人印象深刻的成果，这引发了利用知识蒸馏（例如 Code Evol-Instruct）在开源模型中复制这些能力的趋势。然而，这些努力往往忽视了响应质量这一关键方面，过度依赖教师模型进行直接响应蒸馏。这种范式，尤其对于复杂的指令，会导致合成数据质量下降，从而影响知识蒸馏过程。为此，我们的研究引入了自适应模块化响应演化 (AMR-Evol) 框架，该框架采用两阶段过程来改进响应蒸馏。第一阶段，模块化分解，将直接响应分解成更易于管理的子模块。第二阶段，自适应响应演化，使用相关功能模块自动演化响应。我们使用三个流行的代码基准（HumanEval、MBPP 和 EvalPlus）进行的实验证明了 AMR-Evol 框架优于基线响应蒸馏方法。通过与在类似数据规模上训练的开源代码 LLM 进行比较，我们观察到性能提升：HumanEval-Plus 上超过 +3.0 个点，MBPP-Plus 上超过 +1.0 个点，这突出了我们框架的有效性。我们的代码可在 https://github.com/ChiYeungLaw/AMR-Evol 获取。