摘要
arXiv:2502.10568v1 宣告类型: 新
摘要: 在本文中,我们关注代理人意识到观察者存在的规划问题,同时该观察者处于部分可观测性的情况。代理人需要选择其策略以优化由观察所传递的信息。基于观察者感知的马尔可夫决策过程(OAMDP),我们提出了一个处理此类问题的框架,从而正式化了可读性、明确性和可预测性等属性。将OAMDP扩展到部分可观测性不仅可以处理更现实的问题,还可以允许考虑感兴趣的动态隐藏变量。这些动态目标变量使得例如在可预测性问题或执行过程中目标可能发生变化的情况下进行工作成为可能。我们讨论了PO-OAMDP的理论属性,并通过使用基准问题进行试验,分析了针对专用初始化的POSI的收敛行为,并研究了由此产生的策略。