LLM2D
具表现力的人类动画的多功能多模态控制
Versatile Multimodal Controls for Expressive Talking Human Animation
作者: Zheng Qin, Ruobing Zheng, Yabing Wang, Tianqi Li, Zixin Zhu, Sanping Zhou, Ming Yang, Le Wang
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2503.08714v3

摘要

arXiv:2503.08714v3 宣布类型: replace-cross 摘要:在电影制作中,导演通常会让演员根据剧本自由表演,然后再给出具体的指导,要求他们如何呈现关键动作。AI生成的内容也面临着类似的需要,用户不仅需要从音频输入中自动生成唇同步和基本手势,还希望通过文本描述“直接引导”富有表现力的全身动作。因此,我们提出了VersaAnimator,这是一个多功能框架,可以从任意人物肖像图像中生成富有表现力的对话人类视频。具体来说,我们设计了一个运动生成器,可以从音频输入中生成基本的节奏性动作,并支持通过文本提示控制特定动作。生成的全身3D运动令牌可以动画化不同规模的人物肖像,产生对话头部、半身手势,甚至全身图像的腿部动作。此外,我们引入了一种多模态控制的视频扩散模型,生成逼真的视频,其中语音信号控制唇同步、面部表情和头部动作,而身体动作则由2D姿势引导。此外,我们引入了一个token2pose翻译器,将其3D运动令牌平滑地映射到2D姿态序列。这种设计减轻了从3D到2D直接转换而导致的僵硬感,并增强了生成的身体动作的细节。广泛的实验表明,VersaAnimator可以生成唇同步且保持身份的视频,同时生成富有表现力且具有语义意义的全身动作。