LLM2D

摘要

arXiv:2501.02593v2 类型公告：替换-交叉摘要：基于骨架的动作识别由于其能够以轻量级格式高效表示时空信息而引起了显著的关注。现有大多数方法使用基于图的模型来处理骨架序列，其中每个姿态都作为围绕人体物理连接结构化的骨骼图进行表示。在这些方法中，时空图卷积网络（ST-GCN）已成为广泛应用的框架。相反，基于超图的模型，如Hyperformer，能够捕捉高阶相关性，提供对复杂关节交互的更具表现力的表示。最近的一项进展称为Taylor Videos，通过嵌入运动概念引入了运动增强的骨架序列，为基于骨架的动作识别提供了新颖的视角。在这项论文中，我们使用ST-GCN和Hyperformer模型在NTU-60和NTU-120数据集上对传统的骨架序列和Taylor变换的骨架进行了全面评估。我们比较了骨骼图和超图表示，分析了静态姿态与运动注入姿态之间的差异。我们的研究结果突出了Taylor变换的骨架的优势和限制，展示了它们在增强运动动态方面的能力，同时也揭示了当前在充分利用其优势方面的挑战。这项研究强调了需要创新的骨骼建模技术来有效处理富有运动信息的数据，并进一步推进动作识别领域的进步。