LLM2D
问、提、聚:为与视觉语言模型的紧密交互扩展数据采集
Ask, Pose, Unite: Scaling Data Acquisition for Close Interactions with Vision Language Models
作者: Laura Bravo-S\'anchez, Jaewoo Heo, Zhenzhen Weng, Kuan-Chieh Wang, Serena Yeung-Levy
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00309v1

摘要

在紧密的人际互动中,社会动态对人体网格估计 (HME) 构成了重大挑战,特别是由于物理接触的复杂性和训练数据的稀缺。为了应对这些挑战,我们提出了一种新颖的数据生成方法,该方法利用大型视觉语言模型 (LVLMs) 来标注接触图,这些接触图指导测试时优化,以生成配对的图像和伪地面真实网格。这种方法不仅减轻了标注负担,而且还能够构建专门针对 HME 中紧密互动场景的综合数据集。我们的 Ask Pose Unite (APU) 数据集包含超过 6.2k 对接触的人体网格,涵盖各种互动类型,这些数据是从描绘自然人与人场景的图像中整理出来的。我们通过实验证明,使用我们的数据集训练基于扩散的接触先验,在优化过程中作为指导,可以改善对未见互动场景的网格估计。我们的工作解决了 HME 中紧密互动数据稀缺的长期挑战,增强了该领域处理复杂互动场景的能力。