LLM2D

摘要

arXiv:2502.07531v3 宣布类型: replace-cross 摘要：近期的图像到视频生成方法在控制一个或两个视觉元素方面取得了成功，例如相机运动或物体运动。然而，由于数据和网络有效性方面的限制，这些方法无法同时控制多个视觉元素。在本文中，我们介绍了VidCRAFT3，这是一种新颖的框架，可以同时控制相机运动、物体运动和光照方向。VidCRAFT3整合了三个核心组件：Image2Cloud从参考图像生成3D点云；ObjMotionNet使用多尺度光学流特征编码稀疏物体轨迹；Spatial Triple-Attention Transformer通过并行交叉注意力模块整合光照方向嵌入。此外，我们还引入了VideoLightingDirection数据集，提供了具有准确逐帧光照方向注释的合成且具现实感的视频片段，有效缓解了标注的真实世界数据集的缺乏问题。我们进一步采用了三阶段训练策略，确保即使在没有联合多元素注释的情况下也能进行稳健的学习。广泛的实验表明，VidCRAFT3生成了高质量的视频内容，在控制粒度和视觉连贯性方面优于现有最先进的方法。代码和数据将公开提供。