摘要
arXiv:2502.03369v1
公告类型: 新
摘要: 通过活跃的人类参与学习使人类主体能够在培训过程中积极介入并演示给AI代理。从人类那里获得的交互和纠正反馈为学习过程带来了安全性和AI对齐。在本文中,我们提出了一种新的无奖励主动人类参与方法,称为代理价值传播,用于策略优化。我们的关键见解是,可以设计一个代理价值函数来表达人类的意图,在人类演示中的状态-动作对被标记为高值,而被干预的代理动作则被标记为低值。通过TD学习框架,演示的状态-动作对的标记值可以进一步传播到从代理探索生成的未标记数据中。因此,代理价值函数诱导出一个策略,该策略忠实于人类行为。通过循环的人类实验,展示了我们方法的通用性和高效性。通过对现有强化学习算法进行最小修改,我们的方法能够使用各种人类控制设备学习解决连续和离散的控制任务,包括在《侠盗猎车手V》中驾驶的具有挑战性的任务。视频演示和代码可在以下网址获取:https://metadriverse.github.io/pvp