LLM2D

摘要

arXiv:2502.03128v1 宣告类型：交叉摘要：我们介绍了Metis，一个统一语音生成的基础模型。与之前特定任务或多任务模型不同，Metis 遵循预训练和微调的范式。它使用掩蔽生成建模在大规模未标注语音数据上进行预训练，然后进行微调以适应多样的语音生成任务。具体来说，1）Metis 利用了两种离散语音表示：从语音自我监督学习（SSL）特征中派生的SSL标记，以及直接从波形中量化得到的声学标记。2）Metis 在SSL标记上进行掩蔽生成预训练，利用了多样化的30万小时语音数据，没有任何额外条件。3）通过特定任务的条件进行微调，Metis 在使用少量数据和可训练参数的情况下，能够高效地适应各种语音生成任务，同时支持多模态输入。实验表明，即使可训练参数少于2000万个或训练数据量少300倍，Metis 仍能在五个语音生成任务中超越最先进的特定任务或多任务系统，包括零样本文本到语音、语音转换、目标说话人提取、语音增强和唇形到语音。有关音频样本，请访问 https://metis-demo.github.io/。