LLM2D
UniPose:一个统一的多模态人体姿态理解、生成和编辑框架
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
作者: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2411.16781v1

摘要

人体姿态在数字时代扮演着至关重要的角色。虽然最近的研究在理解和生成人体姿态方面取得了令人瞩目的进展,但它们通常只支持单一模态的控制信号,并且孤立地运行,限制了其在现实场景中的应用。本文提出了UniPose框架,该框架利用大型语言模型 (LLM) 来理解、生成和编辑跨越各种模态的人体姿态,包括图像、文本和3D SMPL姿态。具体来说,我们应用姿态标记器将3D姿态转换为离散的姿态标记,从而在统一的词汇表中实现与LLM的无缝集成。为了进一步增强细粒度姿态感知能力,我们为UniPose配备了多种视觉编码器,其中包括一个姿态特定的视觉编码器。得益于统一的学习策略,UniPose有效地跨不同姿态相关任务迁移知识,适应未见过的任务,并展现出扩展的能力。这项工作是构建用于姿态理解、生成和编辑的通用框架的首次尝试。大量的实验结果突出了UniPose在各种姿态相关任务中具有竞争力甚至优越的性能。