LLM2D

摘要

arXiv:2405.16439v3 宣告类型：替代交叉摘要：在大学校园、餐馆、超市和医院等拥挤的公共空间中，社会机器人导航是一个日益重要的研究领域。实现这一目标的核心策略之一是通过逆强化学习（IRL）学习人类的意图——支配其运动的潜在心理因素。尽管在IRL方面取得了显著进步，但在这些场景中，如过往、交叉口、转向、穿行等紧密耦合的社会互动下，同时学习多个代理的奖励函数在稠密的非结构化行人 crowd 中仍然难以实现。在本文中，我们提出了一种新的适用于现实世界非结构化行人 crowd 的多代理最大熵逆强化学习算法。我们方法的核心在于一种简单但有效的数学技巧，我们称之为可处理性-合理性折衷技巧，该技巧以略微降低准确性为代价实现了可处理性。我们在ETH、UCY、SCAND、JRDB以及一个新的名为Speedway的数据集上，将我们的方法与经典的单代理最大熵IRL以及最先进的轨迹预测方法进行了比较。Speedway数据集是在大学繁忙的交叉口收集的，重点研究稠密复杂的代理互动。我们的主要发现表明，在稠密的Speedway数据集上，我们的方法在顶级七种基线方法中排名第一，单代理IRL性能提高了2倍以上；在ETH/UCY等稀疏数据集上，我们的方法在顶级七种基线方法中排名第3，与最先进的基于大型Transformer的编码器-解码器模型相比具有竞争力。