摘要
音频驱动3D面部动画合成一直是学术界和工业界关注的研究领域。尽管该领域取得了可喜的成果,但最近的方法主要集中在唇形同步和身份控制上,而忽略了情感和情感控制在生成过程中的作用。这主要是因为缺乏情感丰富的面部动画数据和能够同时合成带有情感表达的语音动画的算法。此外,大多数模型是确定性的,这意味着给定相同的音频输入,它们会产生相同的输出运动。我们认为情感和非确定性对于生成多样化且情感丰富的面部动画至关重要。在本文中,我们提出了ProbTalk3D,这是一种非确定性神经网络方法,使用两阶段VQ-VAE模型和情感丰富的面部动画数据集3DMEAD来进行情感可控的语音驱动3D面部动画合成。我们对我们的模型与最近的3D面部动画合成方法进行了广泛的比较分析,通过客观、定性和感知用户研究来评估结果。我们强调了几个更适合评估随机输出的客观指标,并在主观评估中使用了野外数据和真实数据。据我们所知,这是第一个非确定性3D面部动画合成方法,它结合了丰富的情感数据集以及带有情感标签和强度级别的情感控制。我们的评估表明,与最先进的情感控制、确定性和非确定性模型相比,所提出的模型实现了优越的性能。我们建议观看补充视频以进行质量判断。整个代码库已公开发布(https://github.com/uuembodiedsocialai/ProbTalk3D/)。