摘要
arXiv:2504.12867v2 宣告类型:替换-交叉
摘要:人类语言不仅仅是信息的传递,它还是情感的深刻交流和个体之间的情感连接。尽管文本到语音(TTS)模型已取得了重大进展,但在控制生成语音的情感表达方面仍然面临着挑战。在本文中,我们提出了EmoVoice,这是一种新颖的情感可控TTS模型,该模型利用大规模语言模型(LLMs)实现精细的自由风格自然语言情感控制,并设计了一种音素增强变体,使模型能够并行输出音素令牌和音频令牌以增强内容一致性,这一设计受到了chain-of-thought(CoT)和chain-of-modality(CoM)技术的启发。此外,我们引入了EmoVoice-DB,这是一个高质量的40小时英语情感数据集,其特征是具有表现力的语音和细粒度的情感标签,以及自然语言描述。EmoVoice仅使用合成训练数据在英语EmoVoice-DB测试集上实现了最先进的性能,并使用我们内部数据在中文Secap测试集上实现了最先进的性能。我们进一步考察了现有情感评估指标的可靠性以及这些指标与人类感知偏好之间的对齐情况,并探索使用最新多模态LLM GPT-4o-audio和Gemini评估情感语音。可在https://anonymous.4open.science/r/EmoVoice-DF55获取演示样本。数据集、代码和检查点将被发布。