摘要
arXiv:2503.20425v1 通告类型: 新发表
摘要:在人类周围导航需要智能体在不确定性中进行推理,并考虑到周围人的信念和意图。在序贯决策框架下,以自我为中心的导航可以自然地表示为马尔可夫决策过程(MDP)。但是,社会导航还要求推理他人的隐藏信念,这不可避免地导致部分可观测马尔可夫决策过程(POMDP),其中智能体无法直接访问他人的心理状态。受心理论和知识规划的启发,我们提出了一种(1)基于神经符号模型的强化学习架构,用于社会导航,解决部分可观测环境下信念追踪的挑战;以及(2)一种视角转换操作符,用于信念估计,利用结构化多智能体环境中基于影响的抽象(IBA)的最新研究成果。