摘要
arXiv:2411.16781v2 宣布类型: 替换-交叉
摘要:人类姿态在数字时代中起着关键作用。尽管最近的研究在理解和生成人类姿态方面取得了令人瞩目的进展,但它们通常只支持单一类型的控制信号,并且在孤立状态下运作,这限制了它们在实际场景中的应用。本文介绍了UniPose框架,该框架利用大型语言模型(LLMs)在多种模态下理解、生成和编辑人类姿态,包括图像、文本和3D SMPL姿态。具体而言,我们应用姿态分词器将3D姿态转换为离散的姿态令牌,这使得姿态能够在统一的词汇表中无缝集成到LLM中。为了进一步增强细粒度的姿态感知能力,我们为UniPose配备了多种视觉编码器,其中包括特定于姿态的视觉编码器。得益于统一的学习策略,UniPose有效地在不同与姿态相关的任务之间传递知识,适应未见过的任务,并展现出扩展的能力。本文首次尝试构建一个通用框架,用于姿态的理解、生成和编辑。广泛的实验突显了UniPose在各种姿态相关任务中的竞争甚至优越性能。