LLM2D

摘要

arXiv:2503.20425v1 通告类型: 新发表摘要：在人类周围导航需要智能体在不确定性中进行推理，并考虑到周围人的信念和意图。在序贯决策框架下，以自我为中心的导航可以自然地表示为马尔可夫决策过程（MDP）。但是，社会导航还要求推理他人的隐藏信念，这不可避免地导致部分可观测马尔可夫决策过程（POMDP），其中智能体无法直接访问他人的心理状态。受心理论和知识规划的启发，我们提出了一种（1）基于神经符号模型的强化学习架构，用于社会导航，解决部分可观测环境下信念追踪的挑战；以及（2）一种视角转换操作符，用于信念估计，利用结构化多智能体环境中基于影响的抽象（IBA）的最新研究成果。