LLM2D
一统天下:自然语言连接沟通、感知与行动
One to rule them all: natural language to bind communication, perception and action
作者: Simone Colombani, Dimitri Ognibene, Giuseppe Boccignone
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.15033v1

摘要

近年来,人机交互领域的研究集中于开发能够理解复杂人类指令并在动态和多样化环境中执行任务的机器人。这些系统应用广泛,从个人助理到工业机器人,都强调机器人与人类灵活、自然和安全地交互的重要性。本文提出了一种先进的机器人动作规划架构,该架构将基于大型语言模型(LLM)的通信、感知和规划相集成。我们的系统旨在将自然语言表达的指令转换成可执行的机器人动作,结合环境信息,并根据实时反馈动态更新计划。规划器模块是系统的核心,其中在改进的 ReAct 框架中嵌入的 LLMs 用于解释和执行用户命令。通过利用其广泛的预训练知识,LLMs 可以有效地处理用户请求,而无需引入关于变化环境的新知识。改进的 ReAct 框架通过提供实时的环境感知和物理动作的结果,进一步增强了执行空间。通过将健壮且动态的语义地图表示(以图的形式)与控制组件和故障解释相结合,该架构增强了机器人的适应性、任务执行能力以及在共享和动态环境中与人类用户无缝协作的能力。通过与环境集成连续反馈回路,系统可以动态调整计划以适应意外变化,从而优化机器人的任务执行能力。利用以往经验的数据集,可以提供关于故障的详细反馈,并在下一次迭代中更新LLMs的上下文,提出克服问题的建议。