LLM2D
GSON:基于群体的大型多模态模型社会导航框架
GSON: A Group-based Social Navigation Framework with Large Multimodal Model
作者: Shangyi Luo, Ji Zhu, Peng Sun, Yuhong Deng, Cunjun Yu, Anxing Xiao, Xueqian Wang
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.18084v1

摘要

随着人类环境中服务机器人和自动驾驶汽车数量的增长,它们的要求已不再仅仅是导航到目的地。它们还必须考虑到动态的社会环境,并确保在共享空间中尊重和舒适地对待他人,这对感知和规划提出了重大挑战。本文提出了一种基于群体的社会导航框架 GSON,使移动机器人能够通过提升大型多模态模型 (LMM) 的视觉推理能力来感知和利用其周围环境的社会群体。在感知方面,我们应用视觉提示技术来零样本提取行人之间的社会关系,并将结果与稳健的行人检测和跟踪管道相结合,以缓解 LMM 推理速度慢的问题。在获得感知结果后,规划系统被设计为避免破坏当前的社会结构。我们采用基于社会结构的中级规划器作为全局路径规划和局部运动规划之间的桥梁,以保留全局上下文和反应式响应。所提出的方法在涉及复杂社会结构理解和推理的现实世界移动机器人导航任务中得到验证。实验结果表明,与几个基线方法相比,该系统在这些场景中的有效性。