LLM2D
FluentLip:基于音素的两阶段方法,用于具有光流一致性的人脸唇动合成
FluentLip: A Phonemes-Based Two-stage Approach for Audio-Driven Lip Synthesis with Optical Flow Consistency
作者: Shiyan Liu, Rui Qu, Yan Jin
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04427v1

摘要

arXiv:2504.04427v1 类型: cross 摘要: 在音频驱动的唇部合成中,生成与给定语音对齐的连续唇部运动图像是一项具有挑战性的任务。尽管先前的研究在同步性和视觉质量方面取得了进展,但唇部可懂度和视频流畅性仍然是一些持久性的挑战。本文提出了一种名为 FluentLip 的两阶段方法,结合了三种特色策略。为了提高唇部同步性和可懂度,我们整合了一个声学单元提取器和编码器,以生成音频和声学单元信息的融合,用于多模态学习。此外,我们使用光流一致性损失来确保图像帧之间的自然过渡。此外,在生成对抗网络(GANs)的训练过程中引入了一个扩散链,以提高稳定性和效率。我们通过广泛的实验评估了提出的 FluentLip 方法,并将其与五个最先进的(SOTA)方法在五个指标上进行比较,包括一个名为音素错误率(PER)的指标,用于评估唇形姿态的可懂度和视频流畅性。实验结果表明,我们的 FluentLip 方法具有很强的竞争力,在流畅性和自然度方面取得了显著提高。特别是,在弗雷彻- inception 距离(FID)上,它比这些 SOTA 方法高出约 16.3%,在 PER 上高出约 35.2%。