LLM2D

摘要

arXiv:2502.07531v1 宣言类型: cross 摘要：近期的图像到视频生成方法在控制一个或两个视觉元素（例如相机轨迹或对象运动）方面已经取得了成功。然而，由于数据和网络效用的限制，这些方法无法同时控制多个视觉元素。在这篇论文中，我们介绍了一种名为VidCRAFT3的新颖框架，该框架能够同时控制相机运动、对象运动和光照方向。为了更好地分离每个视觉元素的控制，我们提出了空间三重注意力变换器，该变换器以对称的方式整合了光照方向、文本和图像。由于大多数真实世界的视频数据集缺乏光照标注，我们构建了一个高质量的合成视频数据集，即VideoLightingDirection (VLD) 数据集。该数据集包含了光照方向标注和多样外观的对象，使得VidCRAFT3能够有效地处理强烈的光透过和反射效果。此外，我们提出了一个三阶段训练策略，该策略消除了同时使用相机运动、对象运动和光照方向标注的训练数据的需求。针对基准数据集进行的广泛实验表明，VidCRAFT3在生成高质量视频内容方面非常有效，在控制粒度和视觉一致性方面优于现有最先进的方法。所有代码和数据将公开提供。项目页面: https://sixiaozheng.github.io/VidCRAFT3/。