LLM2D
快速扩散 avatar 合成与混合监督多-CFG distillation
FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation
作者: Tianyun Zhong, Chao Liang, Jianwen Jiang, Gaojie Lin, Jiaqi Yang, Zhou Zhao
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2412.16915v2

摘要

arXiv:2412.16915v2 宣言类型: replace-cross 摘要:基于扩散的音频驱动谈话语像方法因其实现高保真、生动且富有表现力的结果而最近引起了关注。然而,它们缓慢的推理速度限制了其实用应用。尽管已经开发了各种扩散模型蒸馏技术,但我们发现简单的扩散蒸馏方法并没有取得令人满意的结果。蒸馏模型在开放集输入图像上表现出降低的鲁棒性,并且与教师模型相比,音频和视频之间的相关性降低,这抵消了扩散模型的优势。为了解决这个问题,我们提出了FADA(快速扩散化身合成,结合混合监督多-CFG蒸馏)。我们首先设计了一种混合监督损失,充分利用不同质量的数据,增强模型的整体能力和鲁棒性。此外,我们提出了一种可学习标记的多-CFG蒸馏,以利用音频与参考图像条件之间的相关性,通过可接受的质量降级来减少多-CFG引起的三次推理运行。通过多个数据集的广泛实验表明,FADA生成的视频在视觉表现上与基于扩散模型的方法相当,同时实现了4.17至12.5倍的NFE加速。演示可以在我们网页http://fadavatar.github.io上找到。