LLM2D

摘要

arXiv:2502.07531v2 宣告类型: 交叉摘要：最近的图像到视频生成方法在控制一个或两个视觉元素（如相机运动轨迹或物体运动）方面取得了成功。然而，由于数据和网络效果的限制，这些方法无法同时控制多个视觉元素。本文中，我们提出了一种名为VidCRAFT3的新框架，这种框架能够同时控制相机运动、物体运动和光照方向。为了更好地分离每个视觉元素的控制，我们提出了空间三重注意变换器，该变换器以对称的方式整合了光照方向、文本和图像。由于大多数现实世界的视频数据集缺乏光照注释，我们构建了一个高质量的合成视频数据集，即VideoLightingDirection (VLD) 数据集。这个数据集包含光照方向注释和多样外观的物体，使VidCRAFT3能够有效地处理强烈的透射和反射效应。此外，我们提出了一个三阶段训练策略，该策略消除了同时需要标注了多个视觉元素（相机运动、物体运动和光照方向）的训练数据的需求。基准数据集上的实验结果证明了VidCRAFT3在生成高质量视频内容方面的有效性，在控制粒度和视觉一致性方面超越了现有的最先进的方法。所有代码和数据都将公开。