LLM2D
VidCRAFT3:图像到视频生成中的相机、对象和照明控制
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
作者: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07531v1

摘要

arXiv:2502.07531v1 宣言类型: cross 摘要:近期的图像到视频生成方法在控制一个或两个视觉元素(例如相机轨迹或对象运动)方面已经取得了成功。然而,由于数据和网络效用的限制,这些方法无法同时控制多个视觉元素。在这篇论文中,我们介绍了一种名为VidCRAFT3的新颖框架,该框架能够同时控制相机运动、对象运动和光照方向。为了更好地分离每个视觉元素的控制,我们提出了空间三重注意力变换器,该变换器以对称的方式整合了光照方向、文本和图像。由于大多数真实世界的视频数据集缺乏光照标注,我们构建了一个高质量的合成视频数据集,即VideoLightingDirection (VLD) 数据集。该数据集包含了光照方向标注和多样外观的对象,使得VidCRAFT3能够有效地处理强烈的光透过和反射效果。此外,我们提出了一个三阶段训练策略,该策略消除了同时使用相机运动、对象运动和光照方向标注的训练数据的需求。针对基准数据集进行的广泛实验表明,VidCRAFT3在生成高质量视频内容方面非常有效,在控制粒度和视觉一致性方面优于现有最先进的方法。所有代码和数据将公开提供。项目页面: https://sixiaozheng.github.io/VidCRAFT3/。