LLM2D

摘要

arXiv:2504.20629v1 类型: cross 摘要：在这篇论文中，我们解决了从多种输入模态（文本、视频和参考音频）合成高质量语音的多模态到语音生成任务。由于其广泛的应用前景，如电影制作、配音和虚拟化身，这一任务正逐渐获得人们的高度关注。尽管取得了近期的进展，现有方法仍然在语音清晰度、音频视频同步、语音自然度以及与参考说话者的声音相似性方面存在局限性。为了应对这些挑战，我们提出了一种名叫AlignDiT的多模态对齐扩散变换器，它能够从对齐的多模态输入中生成准确、同步且自然的语音。基于DiT架构的上下文学习能力，AlignDiT探索了三种有效的策略来对齐多模态表示。此外，我们引入了一种新颖的多模态无分类器引导机制，该机制允许模型在语音合成过程中适应性地平衡每种模态的信息。大量的实验表明，AlignDiT在多项基准测试中，在质量、同步性和说话者相似性方面显著优于现有方法。此外，AlignDiT在各种多模态任务中，如视频到语音合成和视觉强制对齐，展示了很强的泛化能力，并且能够持续保持最先进的性能。该项目的演示页面可在https://mm.kaist.ac.kr/projects/AlignDiT/找到。