摘要
现代多层感知器(MLP)模型在学习视觉表示方面展示了无需自注意力机制的竞争性结果。然而,现有的MLP模型在捕捉局部细节方面表现不佳,并且缺乏对人体结构的先验知识,这限制了它们在骨架表示学习中的建模能力。为了解决这些问题,我们提出了一种简单但有效的图增强MLP-Like架构,称为GraphMLP,它结合了MLP和图卷积网络(GCN),在一个全局-局部-图统一的架构中用于3D人体姿态估计。GraphMLP将人体的图结构融入MLP模型,以满足3D人体姿态的特定领域需求,同时允许局部和全局空间交互。此外,我们提出灵活且高效地将GraphMLP扩展到视频领域,并展示了复杂的时间动态可以以简单的方式进行有效建模,且在序列长度上的计算成本几乎可以忽略不计。据我们所知,这是第一个用于单帧和视频序列3D人体姿态估计的MLP-Like架构。大量实验表明,提出的GraphMLP在两个数据集(即Human3.6M和MPI-INF-3DHP)上达到了最先进的性能。代码和模型可在https://github.com/Vegetebird/GraphMLP上获取。