LLM2D

摘要

arXiv:2410.21349v4 通知类型: replace-cross 摘要：最近，大型语言模型（LLMs）在自动化代码生成方面取得了显著进展。尽管这些模型在遵循指令方面表现出色，但在编程场景中，它们经常难以与用户意图对齐。特别是，由于缺乏多样性的数据集未能解决专门任务或边缘情况，它们常常受到阻碍。此外，在监督微调（SFT）和基于人类反馈的强化学习（RLHF）方面遇到的挑战导致了生成精准、符合人类意图的代码的失败。为了解决这些挑战并提高自动化编程系统的代码生成性能，我们提出了一种反馈驱动的自适应长短时记忆强化编码优化技术（即FALCON）。FALCON结构化为两个层级。从全局层面来看，长期记忆通过保留和应用学到的知识来提高代码质量。在局部层面，短期记忆允许即时从编译器和AI系统获取反馈。此外，我们介绍了带有反馈奖励的元强化学习，以解决全局-局部二层优化问题，并增强模型在各种代码生成任务中的适应性。广泛的实验表明，我们的方法在MBPP基准上比其他强化学习方法领先超过4.5个百分点，在Humaneval基准上领先超过6.1个百分点。开源代码已公开发布在https://github.com/titurte/FALCON。