LLM2D
融合您的潜在表征:基于多源潜在扩散模型的视频编辑
Fuse Your Latents: Video Editing with Multi-source Latent Diffusion Models
作者: Tianyi Lu, Xing Zhang, Jiaxi Gu, Renjing Pei, Songcen Xu, Xingjun Ma, Hang Xu, Zuxuan Wu
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2310.16400v2

摘要

潜在扩散模型(LDM)以其强大的图像和视频合成能力而闻名。然而,与文本到图像(T2I)编辑相比,文本到视频(T2V)编辑由于预训练数据不足、模型可编辑性有限或调整成本过高,缺乏良好的时间一致性和结构。为了解决这一差距,我们提出了FLDMs(融合潜在扩散模型),这是一个免训练框架,通过集成各种T2I和T2V LDM来实现高质量的T2V编辑。具体来说,FLDMs利用具有更新计划的超参数,在去噪过程中有效地融合图像和视频潜在变量。本文首次揭示了T2I和T2V LDM在结构和时间一致性方面可以互补,最终生成高质量的视频。值得注意的是,FLDMs可以用作通用的插件,适用于现成的图像和视频LDM,以显著提高视频编辑质量。在流行的T2I和T2V LDM上进行的大量定量和定性实验表明,FLDMs的编辑质量优于最先进的T2V编辑方法。我们的项目代码可在https://github.com/lutianyi0603/fuse_your_latents获取。