摘要
arXiv:2504.12867v1 通告类型: 横跨
摘要:人类的语言交流不仅仅是信息的传递,它还是情感的深刻交流和个体之间的联系。尽管文本到语音(TTS)模型取得了巨大进步,但在控制生成语音的情感表达方面仍然面临挑战。在本文中,我们提出了一种名为EmoVoice的新型情感可控TTS模型,利用大型语言模型(LLMs)实现精细的情感自然语言控制,并设计了一种声素增强的变体,使模型能够并行输出声素令牌和音频令牌以增强内容一致性,该设计灵感来自于思考链(CoT)和思考模态(CoM)技术。此外,我们引入了EmoVoice-DB,这是一个高质量的、包含40小时英语情感演讲数据集,具有表达性演讲和细粒度情感标签,带有自然语言描述。EmoVoice仅使用合成训练数据在英语EmoVoice-DB测试集上达到了最先进的性能,并且在我们的内部数据上在中文Secap测试集上达到了最先进的性能。我们进一步调查了现有情感评价指标的可靠性以及它们与人类感知偏好的一致性,并探索使用最先进的多模态语言模型GPT-4o-audio和Gemini评估情感语音。样本演示可在https://anonymous.4open.science/r/EmoVoice-DF55获取。数据集、代码和检查点将被发布。