LLM2D

摘要

大型语言模型 (LLMs) 在自然语言理解和生成方面取得了重大进展，这得益于可扩展的预训练和先进的微调。然而，增强 LLMs 的推理能力，特别是通过来自人类反馈的强化学习 (RLHF)，仍然是一个挑战，因为高质量的偏好数据稀缺，这种数据标注劳动密集型，对于奖励模型 (RM) 微调至关重要。为了缓解这个问题，我们引入了 CodePMP，这是一个可扩展的偏好模型预训练 (PMP) 管道，它利用来自公开可用高质量源代码的大量合成代码-偏好对。CodePMP 通过在大型合成代码-偏好对上预训练偏好模型来提高 RM 微调效率。我们在数学推理任务 (GSM8K、MATH) 和逻辑推理任务 (ReClor、LogiQA2.0) 上评估了 CodePMP，结果表明 LLMs 的推理性能始终显着提高，并突出了可扩展的偏好模型预训练对于高效奖励建模的重要性。