摘要
arXiv:2504.12867v3 宣告类型: replace-cross
摘要: 人类语言不仅仅是信息的传递;它是一种深刻的情感交流,也是个人之间的连接。尽管文本到语音(TTS)模型取得了巨大进步,但它们仍然面临在生成语音中控制情感表达的挑战。在这项工作中,我们提出了一种名为 EmoVoice 的新型可控制情感 TTS 模型,利用大型语言模型(LLMs)来实现精细的自由风格自然语言情感控制,并采用了一种音素增强变体设计,该设计使得模型能够并行输出音素令牌和音频令牌以增强内容一致性,受思维链(CoT)和模态链(CoM)技术的启发。此外,我们引入了一种高质量的 40 小时英语情感数据集 EmoVoice-DB,该数据集包含表现力强的语音和细粒度的情感标签,并配有自然语言描述。EmoVoice 仅使用合成训练数据在英语 EmoVoice-DB 测试集上实现了最先进的性能,并在我们在内的数据集上实现了中文 Secap 测试集的先进性能。我们进一步研究了现有情感评估指标的可靠性以及它们与人类感知偏好的一致性,并探索使用最先进的多模态大语言模型 GPT-4o-audio 和 Gemini 评估情感语音。演示样本可在 https://yanghaha0908.github.io/EmoVoice/ 获取。数据集、代码和检查点将被发布。