LLM2D

摘要

大型语言模型（LLM）正在越来越多地用于动态环境（如工作场所、医院和家庭）中的机器人。因此，机器人交互必须简单直观，机器人的感知需要高效地适应人为变化。本文提出了一种机器人控制架构，该架构解决了人机交互中的关键挑战，特别关注机器人状态表示的动态创建和持续更新。该架构利用大型语言模型来整合不同的信息来源，包括自然语言指令、机器人技能表示以及感知场景的实时动态语义映射。这使得机器人能够在复杂动态环境中实现灵活自适应的行为。传统的机器人系统通常依赖于静态的预编程指令和设置，这限制了它们对动态环境和实时协作的适应性。相反，该架构使用LLM来解释复杂的高级指令并生成可执行的计划，从而增强人机协作。其核心是系统感知模块使用RGB-D传感器数据生成并持续更新语义场景图，从而提供对环境的详细且结构化的表示。粒子滤波器用于确保在动态的现实世界环境中准确的对象定位。规划模块利用这个最新的语义地图将高级任务分解成子任务，并将它们与机器人技能（如导航、物体操作（例如，拾取和放置）和移动（例如，前往））联系起来。通过结合实时感知、状态跟踪以及LLM驱动的通信和任务规划，该架构增强了动态环境中机器人的适应性、任务效率和人机协作。