LLM2D
CodePMP:面向大型语言模型推理的可扩展偏好模型预训练
CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning
作者: Huimu Yu, Xing Wu, Weidong Yin, Debing Zhang, Songlin Hu
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02229v1

摘要

大型语言模型 (LLMs) 在自然语言理解和生成方面取得了重大进展,这得益于可扩展的预训练和先进的微调。然而,增强 LLMs 的推理能力,特别是通过来自人类反馈的强化学习 (RLHF),仍然是一个挑战,因为高质量的偏好数据稀缺,这种数据标注劳动密集型,对于奖励模型 (RM) 微调至关重要。为了缓解这个问题,我们引入了 CodePMP,这是一个可扩展的偏好模型预训练 (PMP) 管道,它利用来自公开可用高质量源代码的大量合成代码-偏好对。CodePMP 通过在大型合成代码-偏好对上预训练偏好模型来提高 RM 微调效率。我们在数学推理任务 (GSM8K、MATH) 和逻辑推理任务 (ReClor、LogiQA2.0) 上评估了 CodePMP,结果表明 LLMs 的推理性能始终显着提高,并突出了可扩展的偏好模型预训练对于高效奖励建模的重要性。