LLM2D

摘要

arXiv:2504.18810v1 类型: cross 摘要：使用任意语音音频生成谈话人脸视频是数字人类技术领域的一项重大挑战。先前的研究强调了音频口唇同步和视觉质量的重要性。目前，对视觉不确定性学习的重视程度有限，这在现有的系统中造成了几个问题，包括视觉质量不一致以及不同输入条件下的不可靠性能。为了解决这个问题，我们提出了一种联合不确定性学习网络（JULNet），用于高质量的谈话人脸视频生成，并将与视觉错误直接相关的不确定性表示纳入其中。具体来说，我们首先设计了一个不确定性模块，在获取生成图像后分别预测错误图和不确定性图。错误图表示生成图像与真实图像之间的差异，而不确定性图用于预测不正确估计的可能性。此外，通过引入直方图技术来近似分布，我们通过KL散射项将不确定性分布与错误分布匹配。通过同时优化错误和不确定性，可以增强我们模型的性能和鲁棒性。广泛的经验表明，我们的方法在谈话人脸视频生成中的高保真度和音频口唇同步方面优于先前的方法。