LLM2D

摘要

为了在建筑规模上运行，服务机器人必须通过导航到不同的房间、进入不同的楼层以及与各种未曾见过的日常物体进行交互来执行非常长期的移动操作任务。我们将这些任务称为建筑范围内的移动操作。为了应对这些本质上长期的任务，我们引入了 BUMBLE，一个基于统一视觉语言模型 (VLM) 的框架，它集成了开放世界 RGBD 感知、广泛的从粗到细的运动技能以及双层记忆。我们广泛的评估（90 多个小时）表明，BUMBLE 在需要对长达 15 分钟的试验进行长达 12 个地面实况技能排序的长周期建筑范围任务中，优于多个基线。BUMBLE 在来自不同起始房间和楼层的不同建筑物、任务和场景布局中，在 70 次试验中平均实现了 47.1% 的成功率。我们的用户研究表明，与最先进的移动操作方法相比，我们的方法的满意度高出 22%。最后，我们展示了使用越来越强大的基础模型来进一步提高性能的潜力。有关更多信息，请参见 https://robin-lab.cs.utexas.edu/BUMBLE/