摘要
我们提出了 FEIM-TTS,这是一种创新的零样本文本到语音 (TTS) 模型,它能够合成与面部图像对齐并受情绪强度调制的富有情感表达的语音。FEIM-TTS 利用深度学习超越了传统的 TTS 系统,通过解释面部线索并在没有依赖标记数据集的情况下适应情绪细微差别。为了解决稀疏的音频-视觉-情绪数据问题,该模型使用 LRS3、CREMA-D 和 MELD 数据集进行训练,证明了其适应性。FEIM-TTS 独特的能力,能够生成高质量的、与说话者无关的语音,使其适用于为虚拟角色创建适应性强的语音。此外,FEIM-TTS 显着提高了视障人士或有视力障碍人士的可访问性。通过将情绪细微差别融入 TTS,我们的模型为网络漫画创造了动态且引人入胜的听觉体验,使视障用户能够更充分地享受这些叙事。综合评估证明了它在调节情绪和强度方面的熟练程度,推动了情感语音合成和可访问性的发展。样本可在以下网站获取:https://feim-tts.github.io/。