LLM2D

摘要

arXiv:2410.13726v3 Announce Type: replace-cross 摘要：生成对话头部旨在从单一肖像和语音音频片段中生成生动且现实的对话头部视频。尽管基于扩散的对话头部生成已经取得了显著进展，但几乎所有方法都依赖于自回归策略，这些策略在当前生成步骤之外受限于有限的上下文利用、错误累积以及生成速度较慢。为了解决这些挑战，我们提出了DAWN（动态帧Avatar非自回归扩散）框架，该框架能够一次性生成动态长度的视频序列。具体来说，它由两个主要组件组成：（1）受音频驱动的整体面部动态生成在潜在运动空间中，以及（2）受音频驱动的头部姿态和眨眼生成。大量实验表明，我们的方法生成了真实且生动的视频，具有精确的唇部运动和自然的姿态/眨眼动作。此外，DAWN 具有较高的生成速度，表现出强大的外推能力，确保了高质量长视频的稳定生成。这些结果突出了DAWN在对话头部视频生成领域的巨大潜力和潜在影响。此外，我们希望DAWN能激发对扩散模型中非自回归方法的进一步探索。我们的代码将在https://github.com/Hanbo-Cheng/DAWN-pytorch公开提供。