LLM2D

摘要

arXiv:2412.16915v2 宣言类型: replace-cross 摘要：基于扩散的音频驱动谈话语像方法因其实现高保真、生动且富有表现力的结果而最近引起了关注。然而，它们缓慢的推理速度限制了其实用应用。尽管已经开发了各种扩散模型蒸馏技术，但我们发现简单的扩散蒸馏方法并没有取得令人满意的结果。蒸馏模型在开放集输入图像上表现出降低的鲁棒性，并且与教师模型相比，音频和视频之间的相关性降低，这抵消了扩散模型的优势。为了解决这个问题，我们提出了FADA（快速扩散化身合成，结合混合监督多-CFG蒸馏）。我们首先设计了一种混合监督损失，充分利用不同质量的数据，增强模型的整体能力和鲁棒性。此外，我们提出了一种可学习标记的多-CFG蒸馏，以利用音频与参考图像条件之间的相关性，通过可接受的质量降级来减少多-CFG引起的三次推理运行。通过多个数据集的广泛实验表明，FADA生成的视频在视觉表现上与基于扩散模型的方法相当，同时实现了4.17至12.5倍的NFE加速。演示可以在我们网页http://fadavatar.github.io上找到。