摘要
arXiv:2504.05106v1 Announce Type: 跨领域
摘要:新手的内容创作者常常花费大量时间录制用于社交媒体视频的表达性语音。尽管最近在文本到语音(TTS)技术方面取得了显著进展,可以在多种语言和口音中生成高度真实的语音,但许多人仍然难以操作直观或过于繁琐的TTS界面。我们提出了一种简化TTS生成的方法,允许用户在脚本中指定高级别上下文。我们的Wizard-of-Oz系统SpeakEasy利用用户提供的情境信息来影响和指导TTS输出,使得用户可以通过高级别反馈进行迭代改进。这一方法受到了两项包含8位参与者的形成性研究的启发:一项研究了内容创作者对TTS的体验,另一项则借鉴了配音演员有效策略的经验。我们的评估显示,使用SpeakEasy的参与者在生成符合个人标准的表演方面更加成功,且不需要比领先行业的界面额外投入更多努力。