LLM2D

摘要

基于学习的方法在四足动物运动方面取得了显著的成果。然而，一些挑战阻碍了四足动物学习有用的室内技能，这些技能需要与环境和人类互动：缺乏用于操作的末端执行器、仅使用模拟数据有限的语义理解，以及在室内环境中的低可穿越性和可达性。我们提出了一个用于室内环境中四足动物移动操作的系统。它使用一个前置抓取器进行物体操作，一个在模拟中使用以自我为中心的深度训练的低级控制器，用于实现敏捷技能，如攀爬和全身倾斜，以及使用第三人称鱼眼和以自我为中心的 RGB 相机的预训练视觉语言模型 (VLM)，用于语义理解和命令生成。我们在两个未见的环境中对我们的系统进行了评估，没有进行任何真实世界的数据收集或训练。我们的系统可以零样本推广到这些环境并完成任务，例如在爬过一张双人床后，按照用户的指令去取一个随机放置的毛绒玩具，成功率为 60%。项目网站：https://helpful-doggybot.github.io/