摘要
arXiv:2409.07966v4 宣告类型:替换-交叉
摘要:基于音频的3D面部动画合成是学术界和工业界都关注的一个活跃研究领域。尽管在这个领域已经取得了令人鼓舞的结果,但最近的方法大多集中在唇部同步和身份控制上,忽视了情绪及其控制在生成过程中的作用。这主要是由于缺乏富有情感的面部动画数据和能够同时生成带有情感表达的语音动画的算法。此外,大多数模型是确定性的,这意味着给定相同的音频输入,它们会产生相同输出运动。我们认为,情绪和非确定性对于生成多样化和富有情感的面部动画至关重要。在这篇论文中,我们提出了一种使用两阶段VQ-VAE模型和一个富有情感的3D面部动画数据集3DMEAD的非确定性神经网络方法ProbTalk3D,用于情感可控的语音驱动3D面部动画合成。我们通过客观评价、定性评价以及感知用户研究,对我们的模型与最近的3D面部动画合成方法进行了广泛的比较分析。我们强调了几种更适合评估随机输出的客观指标,并使用真实的和真实数据进行主观评价。据我们所知,这是第一个结合丰富情感数据集和带有情感标签和强度级别的情感控制的非确定性3D面部动画合成方法。我们的评估表明,所提模型在情感控制的确定性和非确定性模型中表现更优。我们建议观看补充视频进行质量判断。整个代码库已在公开提供(https://github.com/uuembodiedsocialai/ProbTalk3D/)。