LLM2D

摘要

强化学习与人类反馈 (RLHF) 被认为是微调大型语言模型 (LLM) 的标准方法。然而，此类方法通常面临一些局限性，例如不合理的黑盒奖励模型、收集人类偏好数据方面的困难以及对稀疏标量奖励的依赖。当应用于需要复杂特定领域理解的任务时，这些方法往往力不从心。为了解决这些挑战，我们提出了一种新的微调范式，称为基于符号反馈的强化学习 (RLSF)，旨在比传统奖励信号更有效地提高 LLM 的特定领域理解能力。在 RLSF 设置中，正在被微调的 LLM 被视为一个 RL 智能体，而环境则被允许访问推理或领域知识工具（例如，求解器、证明器、代数系统或知识库）。至关重要的是，在 RLSF 中，这些推理工具可以通过多尺寸证书（例如，证明）向 LLM 提供反馈，这些证书描述了 LLM 生成的对象相对于某些正确性规范的错误。作为一项额外优势，我们的 RLSF 方法不需要我们使用的推理系统可微分。基于 RLSF 的微调能够利用证书生成符号工具，从而为 LLM 提供可靠的细粒度（令牌级）奖励信号，因此解决了上述传统奖励模型的局限性。通过广泛的评估，我们表明我们基于 RLSF 的 LLM 微调在五个不同的应用中优于传统方法，即从自然语言伪代码到编程语言的程序合成、三个化学任务以及解决 24 点游戏。一项重要结论是，通过 RLSF 进行微调使相对较小的 LLM 能够显著优于规模大几个数量级的闭源模型（例如 GPT-4）。