LLM2D

摘要

3D手势姿态估计在日常自我中心图像中面临多重挑战：视觉信号差（交互对象遮挡、低分辨率和运动模糊）、视角畸变大（手靠近摄像头）以及缺乏受控环境之外的3D注释。虽然现有方法通常使用手部裁剪作为输入以专注于处理视觉信号差的细粒度视觉信息，但视角畸变和野外环境中缺乏3D注释带来的挑战尚未系统研究。我们专注于填补这一空白，探讨不同实践的影响，如裁剪作为输入、结合相机信息、辅助监督、扩展数据集。我们提供了适用于卷积模型和变压器模型的若干见解，从而提升性能。基于我们的研究结果，我们还提出了WildHands，一个用于日常自我中心图像中的3D手势姿态估计系统。对四个不同数据集（H2O、AssemblyHands、Epic-Kitchens、Ego-Exo4D）进行零样本评估，展示了我们方法在2D和3D指标上的有效性，超越了过去的方法7.4%-66%。在系统级别比较中，WildHands在ARCTIC自我中心分割中实现了最佳3D手势姿态，全面超越FrankMocap，并在6个指标中的3个上超越HaMeR，同时体积小10倍、训练数据少5倍。