LLM2D

摘要

arXiv:2412.06602v2 公告类型: replace-cross 摘要: 文字到语音（TTS），也称为语音合成，是一个引人注目的研究领域，旨在从文本生成自然声音的人类语音。近年来，随着工业需求的不断增加，TTS 技术已经超越了生成类似人类的语音，进一步使可控语音生成成为可能。这包括对生成语音的各种属性进行精细控制，如情感、韵律、音色和时长。此外，深度学习的进步，包括扩散模型和大规模语言模型，已在过去几年中显著提高了可控 TTS 的性能。在本文中，我们对可控 TTS 进行了全面的回顾，涵盖了从基本控制技术到利用自然语言提示的方法，旨在提供目前研究状况的清晰理解。我们探讨了通用的可控 TTS 流程、挑战、模型架构和控制策略，提供了一种全面且清晰的现有方法分类体系。此外，我们详细总结了数据集和评估指标，并对可控 TTS 的应用和未来方向给出了一定的见解。据我们所知，本文提供了有关新兴可控 TTS 方法的第一个全面回顾，可以作为学术研究人员和工业实践者的一个有益资源。