LLM2D

摘要

arXiv:2505.07701v1 交叉类型: cross 摘要：近年来的研究表明，采用端到端（E2E）的方式直接从文本生成波形可以比传统的级联或两阶段神经文本到语音（TTS）系统生成更加自然的语音。然而，当前最先进的E2E模型计算复杂且占用大量内存，使得它们不适合低资源场景下的实时离线设备应用。为了解决这个问题，我们提出了一种轻量级E2E-TTS (LE2E)模型，能够生成高质量的语音同时消耗最少的计算资源。我们在LJSpeech数据集上评估了所提出的模型，结果显示它在模型参数上可以小90%，并且在实时因子上快10倍的情况下，达到了最先进的性能。此外，我们展示了所提出的端到端训练范式与两阶段训练相比能够获得更好的质量。我们的结果表明，LE2E 是开发低资源、实时高质量设备端文本到语音应用的一个有前途的方法。