LLM2D
VidCRAFT3:图像到视频生成中的相机、对象和照明控制
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
作者: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07531v2

摘要

arXiv:2502.07531v2 宣告类型: 交叉 摘要:最近的图像到视频生成方法在控制一个或两个视觉元素(如相机运动轨迹或物体运动)方面取得了成功。然而,由于数据和网络效果的限制,这些方法无法同时控制多个视觉元素。本文中,我们提出了一种名为VidCRAFT3的新框架,这种框架能够同时控制相机运动、物体运动和光照方向。为了更好地分离每个视觉元素的控制,我们提出了空间三重注意变换器,该变换器以对称的方式整合了光照方向、文本和图像。由于大多数现实世界的视频数据集缺乏光照注释,我们构建了一个高质量的合成视频数据集,即VideoLightingDirection (VLD) 数据集。这个数据集包含光照方向注释和多样外观的物体,使VidCRAFT3能够有效地处理强烈的透射和反射效应。此外,我们提出了一个三阶段训练策略,该策略消除了同时需要标注了多个视觉元素(相机运动、物体运动和光照方向)的训练数据的需求。基准数据集上的实验结果证明了VidCRAFT3在生成高质量视频内容方面的有效性,在控制粒度和视觉一致性方面超越了现有的最先进的方法。所有代码和数据都将公开。