LLM2D

摘要

本文提出了一种新颖的混合算法，旨在解读桌面场景中的自然人类指令。通过整合来自语音、手势和场景上下文等多个信息源，该系统提取了机器人可执行的指令，识别了相关物体和动作。该系统以零样本的方式运行，不依赖于预定义的物体模型，使其能够在各种环境中灵活自适应地使用。我们评估了多个深度学习模型的集成，评估了它们在现实世界机器人设置中的部署适用性。我们的算法在不同的任务中表现出色，将语言处理与视觉定位结合起来。此外，我们发布了一个用于评估系统的小型视频记录数据集。该数据集捕捉了人类使用自然语言向机器人提供指令的真实世界交互，为未来的人机交互研究做出了贡献。我们讨论了该系统的优势和局限性，特别关注它如何处理多模态指令解读以及它如何集成到符号机器人框架中以实现安全且可解释的决策。