LLM2D

摘要

本文提出了一种新颖的混合算法，用于解释桌面场景中自然的人类指令。该系统通过整合语音、手势和场景上下文等多种信息来源，提取机器人可执行的指令，识别相关的物体和动作。该系统以零样本的方式运行，无需依赖预定义的对象模型，从而能够在各种环境中灵活自适应地使用。我们评估了多种深度学习模型的集成，评估了它们在现实世界机器人设置中的适用性。我们的算法在不同的任务中表现稳健，结合了语言处理和视觉定位。此外，我们还发布了一个用于评估系统的小型视频记录数据集。该数据集捕捉了人类用自然语言向机器人发出指令的真实世界交互，为未来人机交互研究做出了贡献。我们讨论了该系统的优缺点，特别关注它如何处理多模态指令解释，以及它如何集成到符号机器人框架中以实现安全和可解释的决策。