LLM2D

摘要

基于人类反馈的强化学习中，近端策略优化 (PPO) 常用于使大型语言模型 (LLM) 与下游任务对齐。本文研究了使用 PPO 直接从显式编程的奖励信号进行强化学习 (RL)，而不是通过中间奖励模型间接地从人类反馈中学习的可行性。我们关注通过形式语言（如数学和编程）表达的任务，其中可以编程显式奖励函数来自动评估生成输出的质量。我们将此方法应用于情感对齐任务、简单的算术任务和更复杂的博弈合成任务。情感对齐任务复制了之前的研究，并用于验证我们的实验设置。我们的结果表明，针对这两个形式语言任务的纯基于 RL 的训练具有挑战性，即使对于简单的算术任务，成功也是有限的。我们提出了一种新的批量熵正则化项来辅助探索，尽管训练尚未完全稳定。我们的研究结果表明，直接对 LLM 进行 RL 训练可能更适合于相对较小的更改（例如对齐），而不是完全学习新任务，即使可以以编程方式表达信息丰富的奖励信号。