摘要
本文提出了一种新颖的混合算法,用于解释桌面场景中自然的人类指令。该系统通过整合语音、手势和场景上下文等多种信息来源,提取机器人可执行的指令,识别相关的物体和动作。该系统以零样本的方式运行,无需依赖预定义的对象模型,从而能够在各种环境中灵活自适应地使用。我们评估了多种深度学习模型的集成,评估了它们在现实世界机器人设置中的适用性。我们的算法在不同的任务中表现稳健,结合了语言处理和视觉定位。此外,我们还发布了一个用于评估系统的小型视频记录数据集。该数据集捕捉了人类用自然语言向机器人发出指令的真实世界交互,为未来人机交互研究做出了贡献。我们讨论了该系统的优缺点,特别关注它如何处理多模态指令解释,以及它如何集成到符号机器人框架中以实现安全和可解释的决策。