LLM2D

摘要

arXiv:2501.01409v2 宣告类型: 替换-交叉摘要：图像生成器的涌现能力已导致了许多具有重大影响的零样本或少量样本应用。受此成功启发，我们调查视频生成器是否也表现出3D意识。我们使用结构从运动作为3D意识任务来测试视频生成器（例如我们案例中的OpenSora）的中间特征是否能够支持相机姿态估计。令人惊讶的是，最初的测试结果显示，这两个任务之间只存在弱相关性。深入研究发现，尽管视频生成器生成了合理的视频帧，但这些帧本身并不是真正3D一致的。相反，我们提出共同训练这两个任务，利用光度生成和3D意识错误。具体而言，我们发现最新的视频生成网络和相机姿态估计网络（即DUSt3R [79]）具有共同的结构，并提出了一种统一这两个网络的架构。提出的统一模型，命名为\nameMethod，不仅生成高质量的相机姿态估计，还能生成3D一致的视频。总之，我们提出了第一个既3D一致、又能生成逼真视频帧、并且可能适用于其他3D意识任务的统一视频生成器。