摘要
基于人类反馈的强化学习中,近端策略优化 (PPO) 常用于使大型语言模型 (LLM) 与下游任务对齐。本文研究了使用 PPO 直接从显式编程的奖励信号进行强化学习 (RL),而不是通过中间奖励模型间接地从人类反馈中学习的可行性。我们关注通过形式语言(如数学和编程)表达的任务,其中可以编程显式奖励函数来自动评估生成输出的质量。我们将此方法应用于情感对齐任务、简单的算术任务和更复杂的博弈合成任务。情感对齐任务复制了之前的研究,并用于验证我们的实验设置。我们的结果表明,针对这两个形式语言任务的纯基于 RL 的训练具有挑战性,即使对于简单的算术任务,成功也是有限的。我们提出了一种新的批量熵正则化项来辅助探索,尽管训练尚未完全稳定。我们的研究结果表明,直接对 LLM 进行 RL 训练可能更适合于相对较小的更改(例如对齐),而不是完全学习新任务,即使可以以编程方式表达信息丰富的奖励信号。