摘要
基于预训练的大型语言模型 (LLM) 的决策代理正越来越多地部署在人类活动的各个领域。虽然它们目前的应用相当专门化,但有许多研究工作正在进行,以开发更通用的代理。随着基于 LLM 的系统变得更加自主,它们对人类活动的影响将增大,而这种影响的透明度将降低。因此,开发有效的方法来使它们与人类价值观保持一致至关重要。
目前,对齐工作中普遍的做法通常依赖于人类偏好数据(例如,在 RLHF 或 DPO 中),其中价值观是隐含的,并且本质上是从对不同模型输出的相对偏好中推断出来的。在这项工作中,我们没有依赖人类反馈,而是引入了奖励函数的设计,该函数明确地编码了核心人类价值观,用于基于强化学习的基准代理模型的微调。具体来说,我们使用内在奖励来实现 LLM 代理的道德对齐。
我们使用传统的哲学框架(即道义伦理学和功利主义)来评估我们的方法,量化代理在迭代囚徒困境 (IPD) 环境中对行动和后果的道德奖励。我们还展示了如何将道德微调部署到使代理能够忘记先前开发的自私策略。最后,我们发现,在 IPD 游戏中学到的某些道德策略可以推广到其他几个矩阵博弈环境。总之,我们证明了使用内在奖励进行微调是将 LLM 代理与人类价值观保持一致的一种有希望的通用解决方案,并且它可能代表了一种比目前占主导地位的对齐技术更透明、更具成本效益的替代方案。