摘要
arXiv:2504.04427v1 类型: cross
摘要: 在音频驱动的唇部合成中,生成与给定语音对齐的连续唇部运动图像是一项具有挑战性的任务。尽管先前的研究在同步性和视觉质量方面取得了进展,但唇部可懂度和视频流畅性仍然是一些持久性的挑战。本文提出了一种名为 FluentLip 的两阶段方法,结合了三种特色策略。为了提高唇部同步性和可懂度,我们整合了一个声学单元提取器和编码器,以生成音频和声学单元信息的融合,用于多模态学习。此外,我们使用光流一致性损失来确保图像帧之间的自然过渡。此外,在生成对抗网络(GANs)的训练过程中引入了一个扩散链,以提高稳定性和效率。我们通过广泛的实验评估了提出的 FluentLip 方法,并将其与五个最先进的(SOTA)方法在五个指标上进行比较,包括一个名为音素错误率(PER)的指标,用于评估唇形姿态的可懂度和视频流畅性。实验结果表明,我们的 FluentLip 方法具有很强的竞争力,在流畅性和自然度方面取得了显著提高。特别是,在弗雷彻- inception 距离(FID)上,它比这些 SOTA 方法高出约 16.3%,在 PER 上高出约 35.2%。