LLM2D

摘要

arXiv:2502.14939v1 交叉公告类型: cross 摘要：在线连续动作识别由于其在现实世界应用中的实际意义，如人机交互、医疗健康和机器人技术等领域，已经成为一个关键的研究领域。在各种模态中，基于骨架的方法因其在捕捉3D时空数据方面有效且能抵御环境变化的能力而备受青睐。然而，现有大多数工作主要集中在基于片段的动作识别，这使得它们不适合实时、连续的识别场景。在本文中，我们提出了一种新的在线识别系统，专为实时骨架序列流式传输设计。我们的方法采用了一种混合架构，结合了用于空间特征提取的时空图卷积网络（S-GCN）和用于捕获帧间时间依赖性的基于Transformer的图编码器（TGE）。此外，我们还引入了一种持续学习机制，以增强模型对变化的数据分布的适应性，从而在动态环境中实现稳健的识别。我们在SHREC'21基准数据集上评估了我们的方法，展示了其在在线手部手势识别方面的优越性能。我们的方法不仅达到了最先进的准确率，还显著降低了误报率，使其成为实时应用的一个有吸引力的解决方案。所提出系统可以无缝集成到包括人机协作和辅助技术在内的各种领域，特别是在需要自然直观交互的情况下。