摘要
arXiv:2504.20629v1 类型: cross
摘要:在这篇论文中,我们解决了从多种输入模态(文本、视频和参考音频)合成高质量语音的多模态到语音生成任务。由于其广泛的应用前景,如电影制作、配音和虚拟化身,这一任务正逐渐获得人们的高度关注。尽管取得了近期的进展,现有方法仍然在语音清晰度、音频视频同步、语音自然度以及与参考说话者的声音相似性方面存在局限性。为了应对这些挑战,我们提出了一种名叫AlignDiT的多模态对齐扩散变换器,它能够从对齐的多模态输入中生成准确、同步且自然的语音。基于DiT架构的上下文学习能力,AlignDiT探索了三种有效的策略来对齐多模态表示。此外,我们引入了一种新颖的多模态无分类器引导机制,该机制允许模型在语音合成过程中适应性地平衡每种模态的信息。大量的实验表明,AlignDiT在多项基准测试中,在质量、同步性和说话者相似性方面显著优于现有方法。此外,AlignDiT在各种多模态任务中,如视频到语音合成和视觉强制对齐,展示了很强的泛化能力,并且能够持续保持最先进的性能。该项目的演示页面可在https://mm.kaist.ac.kr/projects/AlignDiT/找到。