LLM2D

摘要

arXiv:2504.04427v1 类型: cross 摘要: 在音频驱动的唇部合成中，生成与给定语音对齐的连续唇部运动图像是一项具有挑战性的任务。尽管先前的研究在同步性和视觉质量方面取得了进展，但唇部可懂度和视频流畅性仍然是一些持久性的挑战。本文提出了一种名为 FluentLip 的两阶段方法，结合了三种特色策略。为了提高唇部同步性和可懂度，我们整合了一个声学单元提取器和编码器，以生成音频和声学单元信息的融合，用于多模态学习。此外，我们使用光流一致性损失来确保图像帧之间的自然过渡。此外，在生成对抗网络（GANs）的训练过程中引入了一个扩散链，以提高稳定性和效率。我们通过广泛的实验评估了提出的 FluentLip 方法，并将其与五个最先进的（SOTA）方法在五个指标上进行比较，包括一个名为音素错误率（PER）的指标，用于评估唇形姿态的可懂度和视频流畅性。实验结果表明，我们的 FluentLip 方法具有很强的竞争力，在流畅性和自然度方面取得了显著提高。特别是，在弗雷彻- inception 距离（FID）上，它比这些 SOTA 方法高出约 16.3%，在 PER 上高出约 35.2%。