LLM2D

摘要

文本到图像（T2I）扩散模型彻底改变了视觉内容创作，但将这些能力扩展到文本到视频（T2V）生成仍然是一个挑战，尤其是在保持时间一致性方面。现有的旨在提高一致性的方法往往会导致图像质量下降和计算时间过长等权衡。为了解决这些问题，我们引入了VideoGuide，这是一个新颖的框架，它无需额外训练或微调即可增强预训练T2V模型的时间一致性。VideoGuide利用任何预训练的视频扩散模型（VDM）或自身作为推理早期阶段的指导，通过将指导模型的去噪样本插入到采样模型的去噪过程中来提高时间质量。该方法显著提高了时间一致性和图像保真度，提供了一种经济高效且实用的解决方案，它协同利用了各种视频扩散模型的优势。此外，我们证明了先验蒸馏，揭示了基础模型可以通过所提出的方法利用指导模型的优越数据先验来增强文本连贯性。