LLM2D

摘要

在紧密的人际互动中，社会动态对人体网格估计 (HME) 构成了重大挑战，特别是由于物理接触的复杂性和训练数据的稀缺。为了应对这些挑战，我们提出了一种新颖的数据生成方法，该方法利用大型视觉语言模型 (LVLMs) 来标注接触图，这些接触图指导测试时优化，以生成配对的图像和伪地面真实网格。这种方法不仅减轻了标注负担，而且还能够构建专门针对 HME 中紧密互动场景的综合数据集。我们的 Ask Pose Unite (APU) 数据集包含超过 6.2k 对接触的人体网格，涵盖各种互动类型，这些数据是从描绘自然人与人场景的图像中整理出来的。我们通过实验证明，使用我们的数据集训练基于扩散的接触先验，在优化过程中作为指导，可以改善对未见互动场景的网格估计。我们的工作解决了 HME 中紧密互动数据稀缺的长期挑战，增强了该领域处理复杂互动场景的能力。