LLM2D

摘要

arXiv:2504.01764v1 宣告类型: cross 摘要: 本文介绍了一种使用上下文感知表示学习的Transformer-GCN双流模型进行单目三维人体姿态估计的新方法。单目三维人体姿态估计面临着深度歧义、有限的3D标注训练数据、模型不平衡和模型泛化能力受限等挑战。为了解决这些问题，我们的工作引入了一种基于上下文感知表示学习的开创性运动预训练方法。具体来说，我们的方法涉及遮蔽2D姿态特征，并利用Transformer-GCN双流模型通过自蒸馏设置学习高维表示。通过关注上下文感知表示学习和空时建模，我们的方法增强了模型理解姿态之间的空时关系的能力，从而实现了更强的泛化能力。此外，借助Transformer-GCN双流模型，我们的方法有效平衡了视频姿态估计中的全局和局部交互。模型在网络流和GCN流之间自适应地整合信息，其中GCN流有效地学习相邻关键点和帧之间的局部关系，而Transformer流捕获全面的全局空时特征。我们的模型在两个基准数据集上取得了最先进的性能，Human3.6M上的MPJPE为38.0mm，P-MPJPE为31.9mm，MPI-INF-3DHP上的MPJPE为15.9mm。此外，我们在公开数据集和野外视频上的视觉实验进一步证明了我们方法的稳健性和泛化能力。