LLM2D

摘要

arXiv:2502.05236v1 Announce Type: 跨域摘要：虽然自回归语音令牌生成模型能够生成具有显著多样性和自然性的语音，但由于其固有的可控性缺乏，往往会导致幻听、不符合条件输入的非期望语音等问题。我们引入了Koel-TTS，这是一个通过结合自动语音识别和说话人验证模型引导的偏好对齐技术来解决这些挑战的增强型编码器-解码器Transformer TTS模型。此外，我们还引入了无分类器引导方法，进一步提高合成语音对转录文本和参考说话人音频的依从性。我们的实验表明，这些优化显著增强了合成语音的目标说话人相似度、可听性和自然度。值得注意的是，尽管Koel-TTS是在一个显著较小的数据集上训练的，但在上述指标上，它仍然优于最先进的TTS模型。我们网站上提供了音频样本和演示。