LLM2D

摘要

arXiv:2412.07776v2 宣布类型: replace-cross 摘要：我们提出了一种名为 DiTFlow 的方法，它可以将参考视频的运动传递到新合成的视频中，专门设计用于扩散变压器（DiT）。我们首先使用预训练的 DiT 处理参考视频以分析跨帧注意力图并提取一种称为注意力运动流（AMF）的像素级运动信号。我们以优化为基础，无需训练地指导潜在去噪过程，通过使用我们的 AMF 损失优化潜在变量，从而生成再现参考视频运动的视频。我们还将我们的优化策略应用于变换器位置嵌入，使我们在零样本运动传输方面获得了提升。我们在多个指标和人类评估方面对 DiTFlow 进行了评估，并在所有近期发表的方法中表现出色。