LLM2D
Llasa:在训练时间和推理时间内扩展基于Llama的语音合成的计算能力
Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis
作者: Zhen Ye, Xinfa Zhu, Chi-Min Chan, Xinsheng Wang, Xu Tan, Jiahe Lei, Yi Peng, Haohe Liu, Yizhu Jin, Zheqi DAI, Hongzhan Lin, Jianyi Chen, Xingjian Du, Liumeng Xue, Yunlin Chen, Zhifei Li, Lei Xie, Qiuqiang Kong, Yike Guo, Wei Xue
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.04128v1

摘要

arXiv:2502.04128v1 类型: 交叉 摘要:最近基于文本的大语言模型(LLMs)的发展,特别是在GPT系列和O1模型中,展示了在训练时间和推理时间计算方面扩展的有效性。然而,当前使用LLMs的先进文本到语音(TTS)系统往往是多阶段的,需要单独的模型(例如,LLM之后的扩散模型),这使在训练或测试期间是否扩展特定模型变得复杂。本工作做出了以下贡献:首先,我们探索了语音合成中训练时间和推理时间计算的扩展。其次,我们提出了一种名为Llasa的简单框架,该框架使用单层向量量化(VQ)编解码器和单个Transformer架构,完全符合标准的LLMs,如Llama。我们的实验表明,Llasa的训练时间计算量的扩展始终可以提高合成语音的自然性,并且能够生成更复杂和准确的韵律模式。此外,从推理时间计算扩展的角度来看,我们使用语音理解模型作为搜索过程中的验证器,发现推理时间计算量的扩展会使采样模式偏向特定验证器的偏好,从而提高情感表达力、音色一致性和内容准确性。此外,我们发布了我们的TTS模型(1B、3B、8B)和编解码器模型的检查点和训练代码,使它们公开可用。