LLM2D
VM-BHINet:Vision Mamba 双手手部交互网络,用于从单张RGB图像恢复三维交互手形网格
VM-BHINet:Vision Mamba Bimanual Hand Interaction Network for 3D Interacting Hand Mesh Recovery From a Single RGB Image
作者: Han Bi, Ge Yu, Yu He, Wenzhuo Liu, Zijie Zheng
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14618v1

摘要

arXiv:2504.14618v1 Announce Type: cross 摘要:理解双手交互对于现实的3D姿态和形状重建至关重要。然而,现有的方法在处理遮挡、模糊外观和计算效率低下方面存在困难。为了应对这些挑战,我们提出了Vision Mamba Bimanual Hand Interaction Network (VM-BHINet),将状态空间模型(SSMs)引入手部重建,以增强交互建模并提高计算效率。核心组件Vision Mamba Interaction Feature Extraction Block (VM-IFEBlock)结合了SSMs与局部和全局特征操作,使对手部交互有深入的理解。在InterHand2.6M数据集上的实验表明,VM-BHINet在Mean per-joint position error (MPJPE)和Mean per-vertex position error (MPVPE)上分别降低了2-3%,显著超过了当前最先进的方法。