摘要
arXiv:2410.21349v4 通知类型: replace-cross
摘要:最近,大型语言模型(LLMs)在自动化代码生成方面取得了显著进展。尽管这些模型在遵循指令方面表现出色,但在编程场景中,它们经常难以与用户意图对齐。特别是,由于缺乏多样性的数据集未能解决专门任务或边缘情况,它们常常受到阻碍。此外,在监督微调(SFT)和基于人类反馈的强化学习(RLHF)方面遇到的挑战导致了生成精准、符合人类意图的代码的失败。为了解决这些挑战并提高自动化编程系统的代码生成性能,我们提出了一种反馈驱动的自适应长短时记忆强化编码优化技术(即FALCON)。FALCON结构化为两个层级。从全局层面来看,长期记忆通过保留和应用学到的知识来提高代码质量。在局部层面,短期记忆允许即时从编译器和AI系统获取反馈。此外,我们介绍了带有反馈奖励的元强化学习,以解决全局-局部二层优化问题,并增强模型在各种代码生成任务中的适应性。广泛的实验表明,我们的方法在MBPP基准上比其他强化学习方法领先超过4.5个百分点,在Humaneval基准上领先超过6.1个百分点。开源代码已公开发布在https://github.com/titurte/FALCON。