LLM2D

摘要

本文探讨了可预测性问题，即代理必须选择其策略以优化外部观察者可以做出的预测。我们考虑了环境动力学和观察到的代理策略的不确定性来解决这些问题。为此，我们假设观察者 1. 试图在每个时间步预测代理的未来行动或状态，以及 2. 使用从已知底层问题计算出的随机策略对代理进行建模，并且我们利用了观察者感知马尔可夫决策过程 (OAMDP) 的框架。我们通过基于观察者对代理策略的信念的奖励函数提出了行动和状态可预测性性能标准；证明这些诱导的可预测 OAMDP 可以用目标导向或折扣 MDP 表示；并从理论和经验上分析了两种类型的网格世界问题中提出的奖励函数的特性。