LLM2D

摘要

arXiv:2504.14618v1 Announce Type: cross 摘要：理解双手交互对于现实的3D姿态和形状重建至关重要。然而，现有的方法在处理遮挡、模糊外观和计算效率低下方面存在困难。为了应对这些挑战，我们提出了Vision Mamba Bimanual Hand Interaction Network (VM-BHINet)，将状态空间模型（SSMs）引入手部重建，以增强交互建模并提高计算效率。核心组件Vision Mamba Interaction Feature Extraction Block (VM-IFEBlock)结合了SSMs与局部和全局特征操作，使对手部交互有深入的理解。在InterHand2.6M数据集上的实验表明，VM-BHINet在Mean per-joint position error (MPJPE)和Mean per-vertex position error (MPVPE)上分别降低了2-3%，显著超过了当前最先进的方法。