LLM2D

摘要

近年来，在庞大数据集上训练的语音合成模型取得了显著进展，展现出非凡的零样本能力。这些模型可以根据提示输入控制生成语音的内容、音色和情感。尽管取得了这些进展，但提示的选择对输出质量有重大影响，而大多数现有选择方案并未充分解决情感强度的控制问题。为了解决这个问题，本文提出了一种针对情感可控语音合成的两阶段提示选择策略 EmoPro。该策略重点从四个方面评估提示，以选择高表达性和高质量的提示：情感表达强度、语音质量、文本情感一致性和模型生成性能。实验结果表明，与基线方法相比，使用该方法选择的提示能够生成更具情感表达力和吸引力的合成语音。音频样本和代码将在 https://whyrrrrun.github.io/EmoPro/ 上提供。