摘要
人体姿态在数字时代扮演着至关重要的角色。虽然最近的研究在理解和生成人体姿态方面取得了令人瞩目的进展,但它们通常只支持单一模态的控制信号,并且孤立地运行,限制了其在现实场景中的应用。本文提出了UniPose框架,该框架利用大型语言模型 (LLM) 来理解、生成和编辑跨越各种模态的人体姿态,包括图像、文本和3D SMPL姿态。具体来说,我们应用姿态标记器将3D姿态转换为离散的姿态标记,从而在统一的词汇表中实现与LLM的无缝集成。为了进一步增强细粒度姿态感知能力,我们为UniPose配备了多种视觉编码器,其中包括一个姿态特定的视觉编码器。得益于统一的学习策略,UniPose有效地跨不同姿态相关任务迁移知识,适应未见过的任务,并展现出扩展的能力。这项工作是构建用于姿态理解、生成和编辑的通用框架的首次尝试。大量的实验结果突出了UniPose在各种姿态相关任务中具有竞争力甚至优越的性能。