LLM2D

摘要

arXiv:2503.08714v3 宣布类型: replace-cross 摘要：在电影制作中，导演通常会让演员根据剧本自由表演，然后再给出具体的指导，要求他们如何呈现关键动作。AI生成的内容也面临着类似的需要，用户不仅需要从音频输入中自动生成唇同步和基本手势，还希望通过文本描述“直接引导”富有表现力的全身动作。因此，我们提出了VersaAnimator，这是一个多功能框架，可以从任意人物肖像图像中生成富有表现力的对话人类视频。具体来说，我们设计了一个运动生成器，可以从音频输入中生成基本的节奏性动作，并支持通过文本提示控制特定动作。生成的全身3D运动令牌可以动画化不同规模的人物肖像，产生对话头部、半身手势，甚至全身图像的腿部动作。此外，我们引入了一种多模态控制的视频扩散模型，生成逼真的视频，其中语音信号控制唇同步、面部表情和头部动作，而身体动作则由2D姿势引导。此外，我们引入了一个token2pose翻译器，将其3D运动令牌平滑地映射到2D姿态序列。这种设计减轻了从3D到2D直接转换而导致的僵硬感，并增强了生成的身体动作的细节。广泛的实验表明，VersaAnimator可以生成唇同步且保持身份的视频，同时生成富有表现力且具有语义意义的全身动作。