摘要
arXiv:2410.01639v4 宣布类型:替换-交叉
摘要:基于预训练大型语言模型(LLMs)的决策代理在人类活动的各种领域中越来越被部署。虽然它们目前的应用相对专门化,但已有若干研究努力旨在开发更通用的代理。随着基于LLM的系统变得更具有自主性,它们对人类活动的影响将增加,透明度将降低。因此,开发有效的方法来使它们与人类价值观对齐至关重要。
目前流行的对齐做法通常依赖于人类偏好数据(例如,在RLHF或DPO中),在这种情况下,价值观是隐含的、不透明的,并且实际上是通过比较不同模型输出的相对偏好来推断的。在本研究中,我们没有依赖于人类反馈,而是引入了一种奖励函数的设计方法,其明确且透明地编码了核心的人类价值观,用于基于强化学习的底座代理模型微调。具体而言,我们使用内在奖励对LLM代理进行道德对齐。
我们通过传统的哲学框架——义务伦理学和功利主义,来评估我们的方法,量化代理在重复囚徒困境(IPD)环境中的道德奖励,包括行为和后果。我们还展示了道德微调如何被部署以使代理能够摒弃之前开发的自私策略。最后,我们发现,在IPD游戏中学习到的某些道德策略可以泛化到其他矩阵游戏环境。总之,我们证明,使用内在奖励进行微调是一种有前途的一般性解决方案,可以将LLM代理与人类价值观对齐,并且它可能代表了一种更透明且成本效益更高的替代当前主导的对齐技术。