LLM2D
AutoStyle-TTS:检索增强生成based自动风格匹配文本到语音合成
AutoStyle-TTS: Retrieval-Augmented Generation based Automatic Style Matching Text-to-Speech Synthesis
作者: Dan Luo, Chengyuan Ma, Weiqin Li, Jun Wang, Wei Chen, Zhiyong Wu
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.10309v1

摘要

arXiv:2504.10309v1 Announce Type: 归一化交叉 摘要:随着语音合成技术的发展,用户对合成语音的自然度和表现力有着更高的期待。但之前的研究所忽视了提示选择的重要性。本研究提出了一种基于检索增强生成(RAG)技术的文本转语音(TTS)框架,能够根据文本内容动态调整语音风格,从而实现更加自然和生动的沟通效果。我们构建了一个包含各种背景下高质量语音样本的语音风格知识数据库,并开发了一种风格匹配方案。该方案利用Llama、PER-LLM-Embedder和Moka提取的嵌入,与知识数据库中的样本进行匹配,选择最适合合成的语音风格。此外,我们的实证研究验证了所提出方法的有效性。我们的演示可以在以下链接查看:https://thuhcsi.github.io/icme2025-AutoStyle-TTS