摘要
arXiv:2505.04639v1 Announce Type: cross
摘要:语音到语音翻译(S2ST)旨在将一种语言的口头输入转换为另一种语言的口头输出,通常专注于语言翻译或音调适应。然而,有效的跨文化沟通需要同时处理两个方面:内容翻译和将说话者的音调适应为目标语言的语境。在本工作中,我们提出了一种同时进行语音翻译和声音转换的统一方法,而当前文献中这一任务尚未得到充分探索。我们的方法将问题重新表述为条件生成任务,根据音素生成目标语音,并由目标语音特征引导。利用扩散模型的强大生成能力,我们通过根据源语音转录进行条件控制并生成代表目标语音的梅尔频谱图来适应文本到图像的扩散策略,这些梅尔频谱图具有所期望的语音和音调特征。这种集成框架能够同时优化翻译和音调适应,相对于传统的流水线方法,提供了一个更高效且更有效的模型。