LLM2D

摘要

深度强化学习 (RL) 策略虽然在任务奖励方面最优，但可能与人类用户的个人偏好不一致。为了确保这种一致性，一个简单的解决方案是使用一个编码了用户特定偏好的奖励函数来重新训练代理。然而，这样的奖励函数通常不容易获得，因此从头开始重新训练代理可能非常昂贵。我们提出了一种更实用的方法——借助人类反馈，将已经训练好的策略适应用户的特定需求。为此，我们通过轨迹级反馈推断用户的意图，并将其与经过训练的任务策略结合，使用一种理论上有根据的动态策略融合方法。由于我们的方法在用于学习任务策略的相同轨迹上收集人类反馈，因此它不需要与环境进行任何额外的交互，使其成为一种零样本方法。我们在多个环境中通过实验证明，我们提出的动态策略融合方法始终能够实现预期的任务，同时满足用户的特定需求。