LLM2D

摘要

arXiv:2501.03181v2 Announce Type: replace-cross 摘要：人类可以通过声音来感知说话者的特性（例如身份、性别、个性和情绪），这些特性通常与声音风格一致。最近，以视觉驱动的文本转语音（TTS）学者将研究集中在真实人物的面部上，这限制了有效语音合成的应用范围，使其无法应用于具有多样角色和图像风格的大量潜在使用场景。为了解决这一问题，我们介绍了一种新颖的FaceSpeak方法。它从各种图像风格中提取出突出的身份特征和情绪表示，同时减弱了多余的信息（例如背景、服装、发色等），从而生成的语音与角色的人格特征紧密对齐。此外，为了克服多模态TTS数据的稀缺性，我们设计了一个创新的数据集，名为Expressive Multi-Modal TTS，该数据集经过仔细的策划和注释，以促进该领域的研究。实验结果表明，我们提出的FaceSpeak能够生成具有良好自然度和质量的肖像对齐的声音。