LLM2D
基于群体的社会导航框架与大规模多模态模型
GSON: A Group-based Social Navigation Framework with Large Multimodal Model
作者: Shangyi Luo, Ji Zhu, Peng Sun, Yuhong Deng, Cunjun Yu, Anxing Xiao, Xueqian Wang
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2409.18084v2

摘要

arXiv:2409.18084v2 Announce Type: replace-cross 摘要:随着服务机器人和服务型自主车辆在人类环境中的日益普及,导航系统需要超越简单的目的地到达,而融入社会意识。本文介绍了GSON,这是一种新颖的基于群体的社会导航框架,该框架利用大型多模态模型(LMMs)来增强机器人的社会感知能力。我们的方法使用视觉提示来实现对行人之间社会关系的零样本抽取,并将这些结果与稳健的行人检测和跟踪管道集成,从而克服了LMMs固有的推理速度限制。规划系统包含一个中级规划器,该规划器位于全局路径规划和局部运动规划之间,有效地保持了全局上下文和反应性响应,同时避免了预测的社会群体的干扰。我们通过广泛的现实世界移动机器人导航实验验证了GSON,这些实验涉及排队、交谈和拍照等复杂的社会场景。对比结果表明,我们的系统在最小化社会干扰方面显著优于现有的导航方法,同时在传统的导航指标上保持相似的性能。