LLM2D

摘要

arXiv:2502.04128v1 类型: 交叉摘要：最近基于文本的大语言模型（LLMs）的发展，特别是在GPT系列和O1模型中，展示了在训练时间和推理时间计算方面扩展的有效性。然而，当前使用LLMs的先进文本到语音（TTS）系统往往是多阶段的，需要单独的模型（例如，LLM之后的扩散模型），这使在训练或测试期间是否扩展特定模型变得复杂。本工作做出了以下贡献：首先，我们探索了语音合成中训练时间和推理时间计算的扩展。其次，我们提出了一种名为Llasa的简单框架，该框架使用单层向量量化（VQ）编解码器和单个Transformer架构，完全符合标准的LLMs，如Llama。我们的实验表明，Llasa的训练时间计算量的扩展始终可以提高合成语音的自然性，并且能够生成更复杂和准确的韵律模式。此外，从推理时间计算扩展的角度来看，我们使用语音理解模型作为搜索过程中的验证器，发现推理时间计算量的扩展会使采样模式偏向特定验证器的偏好，从而提高情感表达力、音色一致性和内容准确性。此外，我们发布了我们的TTS模型（1B、3B、8B）和编解码器模型的检查点和训练代码，使它们公开可用。