摘要
强化学习与人类反馈 (RLHF) 被认为是微调大型语言模型 (LLM) 的标准方法。然而,此类方法通常面临一些局限性,例如不合理的黑盒奖励模型、收集人类偏好数据方面的困难以及对稀疏标量奖励的依赖。当应用于需要复杂特定领域理解的任务时,这些方法往往力不从心。
为了解决这些挑战,我们提出了一种新的微调范式,称为基于符号反馈的强化学习 (RLSF),旨在比传统奖励信号更有效地提高 LLM 的特定领域理解能力。在 RLSF 设置中,正在被微调的 LLM 被视为一个 RL 智能体,而环境则被允许访问推理或领域知识工具(例如,求解器、证明器、代数系统或知识库)。至关重要的是,在 RLSF 中,这些推理工具可以通过多尺寸证书(例如,证明)向 LLM 提供反馈,这些证书描述了 LLM 生成的对象相对于某些正确性规范的错误。作为一项额外优势,我们的 RLSF 方法不需要我们使用的推理系统可微分。基于 RLSF 的微调能够利用证书生成符号工具,从而为 LLM 提供可靠的细粒度(令牌级)奖励信号,因此解决了上述传统奖励模型的局限性。
通过广泛的评估,我们表明我们基于 RLSF 的 LLM 微调在五个不同的应用中优于传统方法,即从自然语言伪代码到编程语言的程序合成、三个化学任务以及解决 24 点游戏。一项重要结论是,通过 RLSF 进行微调使相对较小的 LLM 能够显著优于规模大几个数量级的闭源模型(例如 GPT-4)。