LLM2D

摘要

本文介绍了 OmniHands，一种从单目或多视角输入中恢复交互式手部网格及其相对运动的通用方法。我们的方法解决了先前方法的两个主要局限性：缺乏针对各种手部图像输入的统一解决方案，以及忽略图像中两只手的空间关系。为了克服这些挑战，我们开发了一种具有新颖的标记化和上下文特征融合策略的通用架构，能够适应各种任务。具体来说，我们提出了一种关系感知双手绘制标记化（RAT）方法，将位置关系信息嵌入到手部标记中。通过这种方式，我们的网络可以处理单手和双手绘制输入，并明确利用手的相对位置，从而促进在现实场景中重建复杂的手部交互。由于这种标记化表示两只手的相对关系，因此它也支持更有效的特征融合。为此，我们进一步开发了一个 4D 交互推理（FIR）模块，以使用注意力机制在 4D 空间中融合手部标记，并将其解码为 3D 手部网格和相对时间运动。我们的方法在多个基准数据集上得到验证。在野外视频和现实场景中的结果证明了我们的方法在交互式手部重建方面具有优越的性能。更多视频结果可在项目页面找到：https://OmniHand.github.io。