LLM2D

摘要

现代多层感知器（MLP）模型在学习视觉表示方面展示了无需自注意力机制的竞争性结果。然而，现有的MLP模型在捕捉局部细节方面表现不佳，并且缺乏对人体结构的先验知识，这限制了它们在骨架表示学习中的建模能力。为了解决这些问题，我们提出了一种简单但有效的图增强MLP-Like架构，称为GraphMLP，它结合了MLP和图卷积网络（GCN），在一个全局-局部-图统一的架构中用于3D人体姿态估计。GraphMLP将人体的图结构融入MLP模型，以满足3D人体姿态的特定领域需求，同时允许局部和全局空间交互。此外，我们提出灵活且高效地将GraphMLP扩展到视频领域，并展示了复杂的时间动态可以以简单的方式进行有效建模，且在序列长度上的计算成本几乎可以忽略不计。据我们所知，这是第一个用于单帧和视频序列3D人体姿态估计的MLP-Like架构。大量实验表明，提出的GraphMLP在两个数据集（即Human3.6M和MPI-INF-3DHP）上达到了最先进的性能。代码和模型可在https://github.com/Vegetebird/GraphMLP上获取。