摘要
在紧密的人际互动中,社会动态对人体网格估计 (HME) 构成了重大挑战,特别是由于物理接触的复杂性和训练数据的稀缺。为了应对这些挑战,我们提出了一种新颖的数据生成方法,该方法利用大型视觉语言模型 (LVLMs) 来标注接触图,这些接触图指导测试时优化,以生成配对的图像和伪地面真实网格。这种方法不仅减轻了标注负担,而且还能够构建专门针对 HME 中紧密互动场景的综合数据集。我们的 Ask Pose Unite (APU) 数据集包含超过 6.2k 对接触的人体网格,涵盖各种互动类型,这些数据是从描绘自然人与人场景的图像中整理出来的。我们通过实验证明,使用我们的数据集训练基于扩散的接触先验,在优化过程中作为指导,可以改善对未见互动场景的网格估计。我们的工作解决了 HME 中紧密互动数据稀缺的长期挑战,增强了该领域处理复杂互动场景的能力。