LLM2D

摘要

arXiv:2504.06861v1 Announce Type: cross 摘要：零样本、无需训练的基于图像的文本到视频生成是新兴领域，旨在使用现有的基于扩散的图像模型生成视频。当前该领域的方法需要对图像生成模型进行特定的架构改动，这限制了它们的适应性和可扩展性。与此类方法不同，我们提供了一种模型无关的方法。我们利用扩散轨迹的交集，仅使用潜变量来进行操作。我们仅通过轨迹的交集无法获得帧层面的局部一致性与多样性。因此，我们采用了基于网格的方法。我们使用上下文训练的语言模型生成一致的帧级提示；另一个语言模型用于识别帧之间的差异。基于这些信息，我们获得了一个基于CLIP的注意力掩码，用于控制每个网格单元切换提示的时间。较早切换会导致更高的方差，而较晚切换则会产生更多的一致性。因此，我们的方法可以在一致性和方差之间实现适当的控制。我们的方法在与其他多样化的图像生成模型合作时更加灵活，同时达到了最先进的性能。通过定量指标和用户研究的实证分析证实了我们模型在时间一致性和视觉保真度及用户满意度方面的优越性，从而提供了一种新的获得无需训练的基于图像的文本到视频生成的方法。