摘要
arXiv:2502.03128v1 宣告类型:交叉
摘要:我们介绍了Metis,一个统一语音生成的基础模型。与之前特定任务或多任务模型不同,Metis 遵循预训练和微调的范式。它使用掩蔽生成建模在大规模未标注语音数据上进行预训练,然后进行微调以适应多样的语音生成任务。具体来说,1)Metis 利用了两种离散语音表示:从语音自我监督学习(SSL)特征中派生的SSL标记,以及直接从波形中量化得到的声学标记。2)Metis 在SSL标记上进行掩蔽生成预训练,利用了多样化的30万小时语音数据,没有任何额外条件。3)通过特定任务的条件进行微调,Metis 在使用少量数据和可训练参数的情况下,能够高效地适应各种语音生成任务,同时支持多模态输入。实验表明,即使可训练参数少于2000万个或训练数据量少300倍,Metis 仍能在五个语音生成任务中超越最先进的特定任务或多任务系统,包括零样本文本到语音、语音转换、目标说话人提取、语音增强和唇形到语音。有关音频样本,请访问 https://metis-demo.github.io/。