LLM2D

摘要

arXiv:2503.20118v1 宣告类型: cross 摘要：人类-物体交互（HOI）合成在各种应用中都非常重要，从虚拟现实到机器人技术。然而，由于其复杂性和高成本，获取3D HOI数据具有挑战性，限制了现有方法仅局限于训练数据集中狭窄的对象类型和交互模式的多样性。本文提出了一种新型的零样本HOI合成框架，该框架不依赖于当前受限的3D HOI数据集的端到端训练。我们的方法的核心理念在于利用预训练的多模态模型中的广泛HOI知识。给定一段文本描述，我们的系统首先使用图像或视频生成模型获取时空一致的2D HOI图像序列，然后将其提升为人类和物体姿态的3D HOI里程碑。我们利用预训练的人体姿态估计模型提取人体姿态，并引入一种可泛化的类别级6自由度估计方法，从2D HOI图像中获得物体姿态。我们的估计方法适应于从文本到3D模型或在线检索获得的各种不同物体模板。进一步应用基于物理的3D HOI运动链跟踪，以细化人体动作和物体姿态，从而获得更加物理合理的HOI生成结果。实验结果表明，我们的方法能够生成具有物理真实性和语义多样性的开放词汇HOI。