LLM2D
向量大语言模型时代可控语音合成综述
Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey
作者: Tianxin Xie, Yan Rong, Pengfei Zhang, Wenwu Wang, Li Liu
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2412.06602v2

摘要

arXiv:2412.06602v2 公告类型: replace-cross 摘要: 文字到语音(TTS),也称为语音合成,是一个引人注目的研究领域,旨在从文本生成自然声音的人类语音。近年来,随着工业需求的不断增加,TTS 技术已经超越了生成类似人类的语音,进一步使可控语音生成成为可能。这包括对生成语音的各种属性进行精细控制,如情感、韵律、音色和时长。此外,深度学习的进步,包括扩散模型和大规模语言模型,已在过去几年中显著提高了可控 TTS 的性能。在本文中,我们对可控 TTS 进行了全面的回顾,涵盖了从基本控制技术到利用自然语言提示的方法,旨在提供目前研究状况的清晰理解。我们探讨了通用的可控 TTS 流程、挑战、模型架构和控制策略,提供了一种全面且清晰的现有方法分类体系。此外,我们详细总结了数据集和评估指标,并对可控 TTS 的应用和未来方向给出了一定的见解。据我们所知,本文提供了有关新兴可控 TTS 方法的第一个全面回顾,可以作为学术研究人员和工业实践者的一个有益资源。