摘要
arXiv:2405.16439v3 宣告类型:替代交叉
摘要:在大学校园、餐馆、超市和医院等拥挤的公共空间中,社会机器人导航是一个日益重要的研究领域。实现这一目标的核心策略之一是通过逆强化学习(IRL)学习人类的意图——支配其运动的潜在心理因素。尽管在IRL方面取得了显著进步,但在这些场景中,如过往、交叉口、转向、穿行等紧密耦合的社会互动下,同时学习多个代理的奖励函数在稠密的非结构化行人 crowd 中仍然难以实现。在本文中,我们提出了一种新的适用于现实世界非结构化行人 crowd 的多代理最大熵逆强化学习算法。我们方法的核心在于一种简单但有效的数学技巧,我们称之为可处理性-合理性折衷技巧,该技巧以略微降低准确性为代价实现了可处理性。我们在ETH、UCY、SCAND、JRDB以及一个新的名为Speedway的数据集上,将我们的方法与经典的单代理最大熵IRL以及最先进的轨迹预测方法进行了比较。Speedway数据集是在大学繁忙的交叉口收集的,重点研究稠密复杂的代理互动。我们的主要发现表明,在稠密的Speedway数据集上,我们的方法在顶级七种基线方法中排名第一,单代理IRL性能提高了2倍以上;在ETH/UCY等稀疏数据集上,我们的方法在顶级七种基线方法中排名第3,与最先进的基于大型Transformer的编码器-解码器模型相比具有竞争力。