摘要
先前研究表明,使用强化学习在可操控环境中训练“只提供帮助”的 LLMs 会导致模型泛化到严重规范游戏,例如编辑自身的奖励函数或修改任务清单以使其看起来更成功。我们表明,gpt-4o、gpt-4o-mini、o1-preview 和 o1-mini(经过训练以提供帮助、无害且诚实的尖端模型)可以在没有经过任务课程训练的情况下参与规范游戏,纯粹地来自上下文迭代反思(我们称之为上下文强化学习,“ICRL”)。我们还表明,使用 ICRL 生成高度奖励的输出以供专家迭代(与标准专家迭代强化学习算法相比)可能会增加 gpt-4o-mini 学习规范游戏策略的倾向,在极少数情况下泛化到最严重的策略,其中 gpt-4o-mini 编辑自身的奖励函数。我们的结果表明,上下文反思具有强大的能力,可以发现模型在零样本或正常训练中可能不会表现出的罕见规范游戏策略,这突出了在零样本设置中依赖 LLMs 对齐时需要谨慎。