LLM2D

摘要

arXiv:2406.14567v2 宣告类型: replace-cross 摘要：通过配备大量传感器的高端动作捕捉系统，可以实现高质的信任用户动作跟踪的运动重建。然而，使用较少的输入设备来获得这样的动画质量越来越受到欢迎，因为它使动作捕捉更接近普通公众。主要挑战包括基于学习的方法在末端执行器精度方面的损失，或者基于IK的方法在自然性和平滑度方面的不足。此外，此类系统通常需要精细调整特定数量的追踪器，并且对缺失数据高度敏感，例如，在传感器被遮挡或故障的情况下。为应对这些挑战，我们引入了DragPoser，这是一种新颖的基于深度学习的动作重建系统，能够准确表示刚性和动态的实时约束，实现超实时高精度的末端执行器位置。这一目标是通过在结构化的潜在空间中进行姿态优化实现的。我们的系统只需要在大型人类动作数据集上进行一次训练，然后可以根据需要动态定义约束（作为损失），通过在潜在空间内计算这些损失的梯度来逐步优化姿态。为了进一步增强我们的方法，我们引入了一个时间预测网络，该网络利用Transformer架构直接在潜在空间中编码时间特性。该网络确保姿态优化局限于有效姿态的流形上，并利用过去的姿态数据来预测时间连贯的姿态。结果显示，DragPoser 在实现精确的末端执行器定位方面超过了基于IK的方法和最新的数据驱动方法，同时生成自然的姿态和时间连贯的运动。此外，我们的系统展示了对实时约束修改的鲁棒性，并表现出对各种输入配置和变化的出色适应性。