LLM2D
视频运动转移ewith扩散变换器
Video Motion Transfer with Diffusion Transformers
作者: Alexander Pondaven, Aliaksandr Siarohin, Sergey Tulyakov, Philip Torr, Fabio Pizzati
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2412.07776v2

摘要

arXiv:2412.07776v2 宣布类型: replace-cross 摘要:我们提出了一种名为 DiTFlow 的方法,它可以将参考视频的运动传递到新合成的视频中,专门设计用于扩散变压器(DiT)。我们首先使用预训练的 DiT 处理参考视频以分析跨帧注意力图并提取一种称为注意力运动流(AMF)的像素级运动信号。我们以优化为基础,无需训练地指导潜在去噪过程,通过使用我们的 AMF 损失优化潜在变量,从而生成再现参考视频运动的视频。我们还将我们的优化策略应用于变换器位置嵌入,使我们在零样本运动传输方面获得了提升。我们在多个指标和人类评估方面对 DiTFlow 进行了评估,并在所有近期发表的方法中表现出色。