摘要
arXiv:2411.02625v2 宣布类型: replace-cross
摘要:近年来,情感文本转语音(TTS)技术取得了显著进展;然而,由于情感本身固有的复杂性和可用的情感语音数据集及模型的局限性,仍然存在一些挑战。之前的研究所依赖的通常是有限的情感语音数据集,或者需要大量的手动注释,这限制了它们在不同说话者和情感风格上进行泛化的能力。在本文中,我们提出了EmoSphere++,这是一种情感可控的零样本TTS模型,可以控制情感风格和强度,以模拟自然的人类语音。我们引入了一种新颖的情感自适应球形向量,无需人类注释即可模型化情感风格和强度。此外,我们提出了一种多级风格编码器,可以确保对已见和未见说话者进行有效的泛化。我们还引入了额外的损失函数,以增强零样本场景下的情感转移表现。我们使用基于条件流动匹配的解码器,在 few 采样步骤内实现高质量和表达性的情感TTS。实验结果证明了所提出框架的有效性。