LLM2D

摘要

文本到图像（T2I）扩散模型彻底改变了视觉内容的创作，但将这些能力扩展到文本到视频（T2V）生成仍然是一个挑战，特别是在保持时间一致性方面。现有的旨在提高一致性的方法通常会导致权衡，例如图像质量下降和不切实际的计算时间。为了解决这些问题，我们引入了 VideoGuide，这是一种新颖的框架，它可以增强预训练的 T2V 模型的时间一致性，而无需进行额外的训练或微调。相反，VideoGuide 在推理的早期阶段利用任何预训练的视频扩散模型 (VDM) 或自身作为引导，通过将引导模型的去噪样本插值到采样模型的去噪过程中来提高时间质量。所提出的方法在时间一致性和图像保真度方面带来了显着改进，提供了一种经济高效且实用的解决方案，它协同利用了各种视频扩散模型的优势。此外，我们展示了先验蒸馏，揭示了基础模型可以通过利用所提出的方法中引导模型的优越数据先验来实现增强的文本连贯性。项目页面：http://videoguide2025.github.io/