LLM2D
类人政策 ~ 人类政策
Humanoid Policy ~ Human Policy
作者: Ri-Zhao Qiu, Shiqi Yang, Xuxin Cheng, Chaitanya Chawla, Jialong Li, Tairan He, Ge Yan, David J. Yoon, Ryan Hoque, Lars Paulsen, Ge Yang, Jian Zhang, Sha Yi, Guanya Shi, Xiaolong Wang
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.13441v2

摘要

arXiv:2503.13441v2 通告类型: replace-cross 摘要:使用多样化数据训练人形机器人的操作策略可以增强它们在不同任务和平台上的稳定性和泛化能力。然而,仅从机器人演示中学习需要昂贵的手动操作数据采集,这难以大规模扩展。本文探讨了一种更具扩展性的数据来源——以自我为中心的人类演示——作为机器人学习的跨体态训练数据。我们从数据和建模两个方面减轻了人类与人形机器人的体态差距。我们收集了一个与人形机器人操作演示直接对齐的以自我为中心的任务导向数据集(PH2D)。然后,我们训练了一个人类-人形机器人行为策略,我们称之为人类动作变换器(HAT)。HAT的状态-动作空间同时适用于人类和人形机器人,可以可微地重新针对机器人动作。通过小规模机器人数据协同训练,HAT直接将人类和人形机器人建模为不同的体态,无需额外的监督。我们展示了人类数据在显著提高HAT的泛化能力和稳定性方面的改进,同时提高了数据采集效率。代码和数据:https://human-as-robot.github.io/