LLM2D
HARIVO:利用文本到图像模型进行视频生成
HARIVO: Harnessing Text-to-Image Models for Video Generation
作者: Mingi Kwon, Seoung Wug Oh, Yang Zhou, Difan Liu, Joon-Young Lee, Haoran Cai, Baqiao Liu, Feng Liu, Youngjung Uh
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07763v1

摘要

我们提出了一种从预训练的文本到图像(T2I)模型创建扩散式视频模型的方法。最近,AnimateDiff 提出了冻结 T2I 模型,只训练时间层。我们通过提出一个独特的架构来推进这种方法,该架构包含一个映射网络和逐帧标记,专门用于视频生成,同时保持原始 T2I 模型的多样性和创造性。主要创新包括用于时间平滑的新颖损失函数以及一种减轻梯度采样技术,确保尽管公共视频数据有限,也能生成逼真且时间一致的视频。我们已经成功地将特定于视频的归纳偏差整合到架构和损失函数中。我们的方法建立在冻结的 StableDiffusion 模型之上,简化了训练过程,并允许与 ControlNet 和 DreamBooth 等现成模型无缝集成。项目页面:https://kwonminki.github.io/HARIVO