摘要
大型语言模型(LLM)正在越来越多地用于动态环境(如工作场所、医院和家庭)中的机器人。因此,机器人交互必须简单直观,机器人的感知需要高效地适应人为变化。本文提出了一种机器人控制架构,该架构解决了人机交互中的关键挑战,特别关注机器人状态表示的动态创建和持续更新。该架构利用大型语言模型来整合不同的信息来源,包括自然语言指令、机器人技能表示以及感知场景的实时动态语义映射。这使得机器人能够在复杂动态环境中实现灵活自适应的行为。传统的机器人系统通常依赖于静态的预编程指令和设置,这限制了它们对动态环境和实时协作的适应性。相反,该架构使用LLM来解释复杂的高级指令并生成可执行的计划,从而增强人机协作。其核心是系统感知模块使用RGB-D传感器数据生成并持续更新语义场景图,从而提供对环境的详细且结构化的表示。粒子滤波器用于确保在动态的现实世界环境中准确的对象定位。规划模块利用这个最新的语义地图将高级任务分解成子任务,并将它们与机器人技能(如导航、物体操作(例如,拾取和放置)和移动(例如,前往))联系起来。通过结合实时感知、状态跟踪以及LLM驱动的通信和任务规划,该架构增强了动态环境中机器人的适应性、任务效率和人机协作。