LLM2D

摘要

arXiv:2311.18703v4 宣告类型: replace-cross 摘要：在强化学习（RL）中，代理没有表现出可预测行为的动力，并且通常通过使用策略熵正则化等方法被鼓励随机化其行为以进行探索。这常常使得其他代理和人类难以预测代理的行为，从而引发不安全的情景（例如，在人机交互中）。我们提出了一种新的方法来诱导RL代理展现出可预测的行为，称为预测性感知强化学习（PARL），并使用代理的轨迹熵率来量化预测性。该方法最大化标准折扣奖励和负熵率的线性组合，从而在最优性和可预测性之间进行权衡。我们展示了如何将熵率形式化为平均奖励，如何从学习模型中估计熵率价值函数，并将其整合到策略梯度算法中，还展示了这种方法如何在受人类机器人应用启发的任务中生成可预测（接近最优）的策略。