摘要
arXiv:2406.14567v2 宣告类型: replace-cross
摘要:通过配备大量传感器的高端动作捕捉系统,可以实现高质的信任用户动作跟踪的运动重建。然而,使用较少的输入设备来获得这样的动画质量越来越受到欢迎,因为它使动作捕捉更接近普通公众。主要挑战包括基于学习的方法在末端执行器精度方面的损失,或者基于IK的方法在自然性和平滑度方面的不足。此外,此类系统通常需要精细调整特定数量的追踪器,并且对缺失数据高度敏感,例如,在传感器被遮挡或故障的情况下。为应对这些挑战,我们引入了DragPoser,这是一种新颖的基于深度学习的动作重建系统,能够准确表示刚性和动态的实时约束,实现超实时高精度的末端执行器位置。这一目标是通过在结构化的潜在空间中进行姿态优化实现的。我们的系统只需要在大型人类动作数据集上进行一次训练,然后可以根据需要动态定义约束(作为损失),通过在潜在空间内计算这些损失的梯度来逐步优化姿态。为了进一步增强我们的方法,我们引入了一个时间预测网络,该网络利用Transformer架构直接在潜在空间中编码时间特性。该网络确保姿态优化局限于有效姿态的流形上,并利用过去的姿态数据来预测时间连贯的姿态。结果显示,DragPoser 在实现精确的末端执行器定位方面超过了基于IK的方法和最新的数据驱动方法,同时生成自然的姿态和时间连贯的运动。此外,我们的系统展示了对实时约束修改的鲁棒性,并表现出对各种输入配置和变化的出色适应性。