摘要
基于学习的方法在四足动物运动方面取得了显著的成果。然而,一些挑战阻碍了四足动物学习有用的室内技能,这些技能需要与环境和人类互动:缺乏用于操作的末端执行器、仅使用模拟数据有限的语义理解,以及在室内环境中的低可穿越性和可达性。我们提出了一个用于室内环境中四足动物移动操作的系统。它使用一个前置抓取器进行物体操作,一个在模拟中使用以自我为中心的深度训练的低级控制器,用于实现敏捷技能,如攀爬和全身倾斜,以及使用第三人称鱼眼和以自我为中心的 RGB 相机的预训练视觉语言模型 (VLM),用于语义理解和命令生成。我们在两个未见的环境中对我们的系统进行了评估,没有进行任何真实世界的数据收集或训练。我们的系统可以零样本推广到这些环境并完成任务,例如在爬过一张双人床后,按照用户的指令去取一个随机放置的毛绒玩具,成功率为 60%。项目网站:https://helpful-doggybot.github.io/