LLM2D
FaceSpeak: 具有不同风格人类肖像的高表达性和高质量语音合成
FaceSpeak: Expressive and High-Quality Speech Synthesis from Human Portraits of Different Styles
作者: Tian-Hao Zhang, Jiawei Zhang, Jun Wang, Xinyuan Qian, Xu-Cheng Yin
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2501.03181v2

摘要

arXiv:2501.03181v2 Announce Type: replace-cross 摘要:人类可以通过声音来感知说话者的特性(例如身份、性别、个性和情绪),这些特性通常与声音风格一致。最近,以视觉驱动的文本转语音(TTS)学者将研究集中在真实人物的面部上,这限制了有效语音合成的应用范围,使其无法应用于具有多样角色和图像风格的大量潜在使用场景。为了解决这一问题,我们介绍了一种新颖的FaceSpeak方法。它从各种图像风格中提取出突出的身份特征和情绪表示,同时减弱了多余的信息(例如背景、服装、发色等),从而生成的语音与角色的人格特征紧密对齐。此外,为了克服多模态TTS数据的稀缺性,我们设计了一个创新的数据集,名为Expressive Multi-Modal TTS,该数据集经过仔细的策划和注释,以促进该领域的研究。实验结果表明,我们提出的FaceSpeak能够生成具有良好自然度和质量的肖像对齐的声音。