摘要
arXiv:2409.12992v1 公告类型: 交叉 摘要: 随着基于文本的语音编辑技术日益普及,对无限制自由文本编辑的需求不断增长。然而,现有的语音编辑技术在处理域外(OOD)文本时面临重大挑战,特别是在保持可理解性和声学一致性方面。本文介绍了一种名为DiffEditor的新型语音编辑模型,该模型通过语义增强和声学一致性来提高OOD文本场景中的性能。为了提高编辑后语音的可理解性,我们通过整合从预训练语言模型中提取的词嵌入来丰富音素嵌入的语义信息。此外,我们强调帧间平滑特性对于建模声学一致性至关重要,因此我们提出了一种一阶损失函数,以促进编辑边界处的平滑过渡,并增强编辑后语音的整体流畅性。实验结果表明,我们的模型在域内和域外文本场景中均达到了最先进的性能。