LLM2D

摘要

arXiv:2412.16153v2 宣告类型: replace-cross 摘要: 文本-图像到视频 (TI2V) 生成旨在根据文本描述生成视频，这也被称为文本引导的图像动画。现有大多数方法在生成与文本提示匹配良好的视频时遇到困难，特别是在指定动作时。为克服这一限制，我们引入了 MotiF，这是一种简单而有效的方法，能够引导模型的学习集中在更多动作的区域，从而提高文本匹配和动作生成的效果。我们使用光流生成动作热图，并根据动作的强度调整损失权重。这种修改后的目标使得在现有方法利用动作先验作为模型输入的基础上，取得了显著的改进。此外，由于缺乏用于评估 TI2V 生成的多样基准，我们提出了 TI2V Bench 数据集，包含 320 组图像-文本对，用于稳健评估。我们提出了一个由标注者在两段视频中选择整体偏好的评估协议，并提供其理由。通过在 TI2V Bench 上进行全面评估，MotiF 出色地超过了九个开源模型，平均偏好率为 72%。TI2V Bench 和额外结果将发布在 https://wang-sj16.github.io/motif/。