摘要
基于直接偏好学习的仅用自生成测试和代码提升代码生成大型语言模型的框架。然而,可靠偏好数据的匮乏制约了直接偏好学习提升代码大型语言模型编码准确性的性能。本文介绍了仅用自生成测试和代码的直接偏好学习 (DSTC) 框架,该框架仅利用自生成的代码片段和测试来构建可靠的偏好对,以便直接偏好学习能够在无需外部标注的情况下提高大型语言模型的编码准确性。DSTC 结合了极小极大选择过程和测试代码连接,以提高偏好对的质量,减少了错误自生成测试的影响,并在无需代价高昂的奖励模型的情况下增强了模型性能。当与直接偏好优化 (DPO) 和 Kahneman-Tversky 优化 (KTO) 等直接偏好学习方法一起使用时,DSTC 在包括 HumanEval、MBPP 和 BigCodeBench 在内的各种编码基准测试中都产生了编码准确性 (pass@1 分数) 的稳定提升,证明了其对各种规模模型的有效性和可扩展性。这种方法可以自主地提高各种规模大型语言模型的代码生成准确性,减少了对昂贵的标注编码数据集的依赖。