LLM2D

摘要

arXiv:2502.05641v1 宣告类型: cross 摘要：本文旨在从多模态输入中生成具有物理基础且实际的真人行为，这些输入可能仅部分确定所需的运动。例如，输入可能来自提供手臂运动和身体速度的VR控制器，部分关键点动画，视频中的计算机视觉应用，甚至更高级别的运动目标。这需要一种多功能的低级类人控制器，它可以处理这类稀疏且不明确的指导，无缝地在技能之间切换，并从失败中恢复过来。当前从演示数据学习类人控制器的方法能够捕捉到这些特性的部分，但没有一种能够全部实现。为此，我们介绍了Masked Humanoid Controller (MHC)，这是一种新颖的方法，它在增强和选择性掩蔽的运动演示中应用多目标模仿学习。训练方法导致MHC具备追赶不相匹配的输入命令、结合多个运动序列的元素以及从稀疏多模态输入完成未指定运动部分的关键能力。我们展示了在包含87种不同技能的数据集上学习的MHC的关键能力，并展示了多种多模态应用场景，包括与规划框架的集成，以突出MHC能够在没有任何微调的情况下解决用户定义的新任务的能力。