LLM2D
UniPose:统一多模态的人体姿态理解、生成和编辑框架
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
作者: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2411.16781v2

摘要

arXiv:2411.16781v2 宣布类型: 替换-交叉 摘要:人类姿态在数字时代中起着关键作用。尽管最近的研究在理解和生成人类姿态方面取得了令人瞩目的进展,但它们通常只支持单一类型的控制信号,并且在孤立状态下运作,这限制了它们在实际场景中的应用。本文介绍了UniPose框架,该框架利用大型语言模型(LLMs)在多种模态下理解、生成和编辑人类姿态,包括图像、文本和3D SMPL姿态。具体而言,我们应用姿态分词器将3D姿态转换为离散的姿态令牌,这使得姿态能够在统一的词汇表中无缝集成到LLM中。为了进一步增强细粒度的姿态感知能力,我们为UniPose配备了多种视觉编码器,其中包括特定于姿态的视觉编码器。得益于统一的学习策略,UniPose有效地在不同与姿态相关的任务之间传递知识,适应未见过的任务,并展现出扩展的能力。本文首次尝试构建一个通用框架,用于姿态的理解、生成和编辑。广泛的实验突显了UniPose在各种姿态相关任务中的竞争甚至优越性能。