摘要
arXiv:2502.04128v1 类型: 交叉
摘要:最近基于文本的大语言模型(LLMs)的发展,特别是在GPT系列和O1模型中,展示了在训练时间和推理时间计算方面扩展的有效性。然而,当前使用LLMs的先进文本到语音(TTS)系统往往是多阶段的,需要单独的模型(例如,LLM之后的扩散模型),这使在训练或测试期间是否扩展特定模型变得复杂。本工作做出了以下贡献:首先,我们探索了语音合成中训练时间和推理时间计算的扩展。其次,我们提出了一种名为Llasa的简单框架,该框架使用单层向量量化(VQ)编解码器和单个Transformer架构,完全符合标准的LLMs,如Llama。我们的实验表明,Llasa的训练时间计算量的扩展始终可以提高合成语音的自然性,并且能够生成更复杂和准确的韵律模式。此外,从推理时间计算扩展的角度来看,我们使用语音理解模型作为搜索过程中的验证器,发现推理时间计算量的扩展会使采样模式偏向特定验证器的偏好,从而提高情感表达力、音色一致性和内容准确性。此外,我们发布了我们的TTS模型(1B、3B、8B)和编解码器模型的检查点和训练代码,使它们公开可用。