摘要
arXiv:2405.15907v2 宣告类型: 重置
摘要: 在现实环境中进行规划时,通常需要解决部分可观测性问题同时满足用户的要求。我们提出了一种新的框架,通过部分可观测性目标导向部分可观测马尔可夫决策过程(gPOMDP)中的参数化信念状态查询(BSQ)策略来表达用户对智能体行为的约束和偏好。我们首次对这些约束进行了正式分析,并证明尽管参数化BSQ策略相对于其参数的成本期望函数不是凸的,但它是有分段常数的,并导致一个隐含的离散参数搜索空间,在有限的时间范围内是有限的。这一理论结果导致了新颖的算法,这些算法能够以用户对齐的方式优化gPOMDP智能体的行为。分析证明,我们的算法在极限情况下可以收敛到最佳用户对齐的行为。实验结果表明,参数化BSQ策略提供了一种在部分可观测环境中进行用户对齐规划的计算上可行的方法。