LLM2D

摘要

人体姿态在数字时代扮演着至关重要的角色。虽然最近的研究在理解和生成人体姿态方面取得了令人瞩目的进展，但它们通常只支持单一模态的控制信号，并且孤立地运行，限制了其在现实场景中的应用。本文提出了UniPose框架，该框架利用大型语言模型 (LLM) 来理解、生成和编辑跨越各种模态的人体姿态，包括图像、文本和3D SMPL姿态。具体来说，我们应用姿态标记器将3D姿态转换为离散的姿态标记，从而在统一的词汇表中实现与LLM的无缝集成。为了进一步增强细粒度姿态感知能力，我们为UniPose配备了多种视觉编码器，其中包括一个姿态特定的视觉编码器。得益于统一的学习策略，UniPose有效地跨不同姿态相关任务迁移知识，适应未见过的任务，并展现出扩展的能力。这项工作是构建用于姿态理解、生成和编辑的通用框架的首次尝试。大量的实验结果突出了UniPose在各种姿态相关任务中具有竞争力甚至优越的性能。