摘要
arXiv:2501.03181v2 Announce Type: replace-cross
摘要:人类可以通过声音来感知说话者的特性(例如身份、性别、个性和情绪),这些特性通常与声音风格一致。最近,以视觉驱动的文本转语音(TTS)学者将研究集中在真实人物的面部上,这限制了有效语音合成的应用范围,使其无法应用于具有多样角色和图像风格的大量潜在使用场景。为了解决这一问题,我们介绍了一种新颖的FaceSpeak方法。它从各种图像风格中提取出突出的身份特征和情绪表示,同时减弱了多余的信息(例如背景、服装、发色等),从而生成的语音与角色的人格特征紧密对齐。此外,为了克服多模态TTS数据的稀缺性,我们设计了一个创新的数据集,名为Expressive Multi-Modal TTS,该数据集经过仔细的策划和注释,以促进该领域的研究。实验结果表明,我们提出的FaceSpeak能够生成具有良好自然度和质量的肖像对齐的声音。