LLM2D
偏好对齐提升基于语言模型的文本转语音技术
Preference Alignment Improves Language Model-Based TTS
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2409.12403v1

摘要

arXiv:2409.12403v1 公告类型: 交叉 摘要: 最近的文本到语音(TTS)进展表明,基于语言模型(LM)的系统在性能上与传统系统不相上下。通过偏好对齐算法进一步优化,这些算法调整LM以与奖励模型的偏好对齐,从而提高生成内容的质量。本研究对偏好对齐算法,特别是直接偏好优化(DPO),如何增强基于LM的TTS进行了全面的实证评估。我们使用一个1.15亿参数的基于LM的TTS模型,证明偏好对齐一致地提高了可理解性、说话者相似性和代理主观评估分数,后两项指标在某些评估中甚至超过了人类语音。我们还展示了偏好对齐适用于低资源场景,并能有效地推广到域外应用。