LLM2D

摘要

arXiv:2503.21847v1 类型：交叉摘要：我们提出了 ReCoM，一个高效框架，用于生成与语音同步的高保真和可泛化的身体动作。核心创新在于递归嵌入变换器（RET），它将动态嵌入正则化（DER）整合到 Vision Transformer（ViT）的核心架构中，以明确建模共言语动动态。这种架构能够同时建模空间-时间依赖性，从而通过连贯的动作合成增强手势的自然性和保真度。为了提高模型的鲁棒性，我们引入了所提出的 DER 策略，为模型配备了噪声抗性和跨域泛化的双重能力，从而改善了对未见过的语音输入的零样本动作生成的自然性和流畅性。为了缓解自回归推理固有的局限性，包括累积误差和有限的自我纠正，我们提出了迭代重建推理（IRI）策略。IRI 通过循环姿态重建精细动作序列，由两个关键组成部分驱动：（1）无辅助监督的情况下，分类器无指导的指导性提高了生成姿势与真实姿势之间的分布对齐，（2）时间平滑过程消除了帧间突变过渡，同时确保动机构连续性。基准数据集上的广泛实验证明了 ReCoM 的有效性，其在各项指标上都达到了最佳性能。值得注意的是，它将 Fréchet 动作距离（FGD）从 18.70 降低到 2.48，展示了动作真实感的 86.7% 的提升。我们的项目页面是 https://yong-xie-xy.github.io/ReCoM/。