摘要
人类的情感表达天生具有动态性、复杂性和流动性,其特点是在言语交流过程中强度平滑过渡。然而,以往的音频驱动说话头像生成方法在很大程度上忽略了这种强度波动的建模,这往往会导致静态的情感输出。在本文中,我们探讨了情感强度如何在语音中波动,提出了一种捕获和生成这些细微变化以用于说话头像生成的方法。具体来说,我们开发了一个说话头像框架,该框架能够生成各种情感,并对强度水平进行精确控制。这是通过学习一个连续的情感潜在空间来实现的,其中情感类型被编码在潜在方向内,情感强度反映在潜在规范中。此外,为了捕获动态的强度波动,我们通过考虑反映强度的说话语气,采用了一种音频到强度预测器。该预测器的训练信号是通过我们无情感的强度伪标签方法获得的,无需帧级强度标签。大量的实验和分析验证了我们提出的方法在准确捕获和再现说话头像生成中情感强度波动的有效性,从而显着增强了生成输出的表达力和真实感。