LLM2D

摘要

arXiv:2409.12403v1 公告类型: 交叉摘要: 最近的文本到语音(TTS)进展表明，基于语言模型(LM)的系统在性能上与传统系统不相上下。通过偏好对齐算法进一步优化，这些算法调整LM以与奖励模型的偏好对齐，从而提高生成内容的质量。本研究对偏好对齐算法，特别是直接偏好优化(DPO)，如何增强基于LM的TTS进行了全面的实证评估。我们使用一个1.15亿参数的基于LM的TTS模型，证明偏好对齐一致地提高了可理解性、说话者相似性和代理主观评估分数，后两项指标在某些评估中甚至超过了人类语音。我们还展示了偏好对齐适用于低资源场景，并能有效地推广到域外应用。