摘要
arXiv:2502.13234v1 交叉公告类型: cross
摘要: 文本到视频(T2V)扩散模型在从输入文本提示合成逼真视频方面显示出有前途的能力。然而,仅凭输入文本描述无法对精确物体运动和相机构图提供有限的控制。在这项工作中,我们解决了运动自定义问题,其中提供了一个参考视频作为运动指导。虽然大多数现有方法选择微调预训练的扩散模型以重建参考视频的帧差异,但我们观察到这种策略会从参考视频中泄露内容,并且无法准确捕捉复杂的运动。为此,我们提出了一种名为MotionMatcher的运动自定义框架,该框架在特征级别微调预训练的T2V扩散模型。与使用像素级目标相反,MotionMatcher通过比较高级的空间-时间运动特征来微调扩散模型,以确保精确的运动学习。为了提高内存效率和可访问性,我们利用了一个包含大量关于视频运动先验知识的预训练T2V扩散模型来计算这些运动特征。在我们的实验中,我们展示了最先进的运动自定义性能,验证了我们框架的设计。