摘要
尽管深度强化学习 (RL) 策略在任务奖励方面是最优的,但它们可能与人类用户的个人偏好不一致。为了确保这种一致性,一个简单的解决方案是使用编码用户特定偏好的奖励函数重新训练代理。然而,这种奖励函数通常不容易获得,因此从头开始重新训练代理可能非常昂贵。我们提出了一种更实用的方法——借助人类反馈,将已训练的策略调整到用户的特定需求。为此,我们通过轨迹级反馈推断用户的意图,并通过理论上有根据的动态策略融合方法将其与训练好的任务策略结合起来。由于我们的方法收集了用于学习任务策略的相同轨迹上的用户反馈,因此它不需要与环境进行任何额外的交互,使其成为一种零样本方法。我们在多个环境中通过实验证明,我们提出的动态策略融合方法始终能够实现预期任务,同时满足用户特定需求。