LLM2D

摘要

arXiv:2411.16781v2 宣布类型: 替换-交叉摘要：人类姿态在数字时代中起着关键作用。尽管最近的研究在理解和生成人类姿态方面取得了令人瞩目的进展，但它们通常只支持单一类型的控制信号，并且在孤立状态下运作，这限制了它们在实际场景中的应用。本文介绍了UniPose框架，该框架利用大型语言模型（LLMs）在多种模态下理解、生成和编辑人类姿态，包括图像、文本和3D SMPL姿态。具体而言，我们应用姿态分词器将3D姿态转换为离散的姿态令牌，这使得姿态能够在统一的词汇表中无缝集成到LLM中。为了进一步增强细粒度的姿态感知能力，我们为UniPose配备了多种视觉编码器，其中包括特定于姿态的视觉编码器。得益于统一的学习策略，UniPose有效地在不同与姿态相关的任务之间传递知识，适应未见过的任务，并展现出扩展的能力。本文首次尝试构建一个通用框架，用于姿态的理解、生成和编辑。广泛的实验突显了UniPose在各种姿态相关任务中的竞争甚至优越性能。