LLM2D

摘要

潜在扩散模型(LDM)以其强大的图像和视频合成能力而闻名。然而，与文本到图像(T2I)编辑相比，文本到视频(T2V)编辑由于预训练数据不足、模型可编辑性有限或调整成本过高，缺乏良好的时间一致性和结构。为了解决这一差距，我们提出了FLDMs(融合潜在扩散模型)，这是一个免训练框架，通过集成各种T2I和T2V LDM来实现高质量的T2V编辑。具体来说，FLDMs利用具有更新计划的超参数，在去噪过程中有效地融合图像和视频潜在变量。本文首次揭示了T2I和T2V LDM在结构和时间一致性方面可以互补，最终生成高质量的视频。值得注意的是，FLDMs可以用作通用的插件，适用于现成的图像和视频LDM，以显著提高视频编辑质量。在流行的T2I和T2V LDM上进行的大量定量和定性实验表明，FLDMs的编辑质量优于最先进的T2V编辑方法。我们的项目代码可在https://github.com/lutianyi0603/fuse_your_latents获取。