LLM2D

摘要

尽管最近的文本转语音 (TTS) 技术取得了进展，能够生成自然而富有表现力的语音，但它们缺乏用户选择情感和控制强度的选项。我们提出了 EmoKnob，一个框架，它允许在语音合成中使用少量任意情感的示范样本进行细粒度的情感控制。我们的框架利用了近年来基础语音克隆模型取得的进展，实现了富有表现力的说话者表示空间。基于我们情感控制框架的小样本能力，我们提出了两种方法来将情感控制应用于由开放式文本描述的情感，从而为控制各种细微情感提供直观的界面。为了促进更系统的情感语音合成领域，我们引入了一套评估指标，旨在严格评估情感控制框架的忠实度和可识别性。通过客观和主观评估，我们表明，我们的情感控制框架有效地将情感嵌入到语音中，并且超越了商业 TTS 服务的情感表达能力。