摘要
arXiv:2503.23368v2 宣告类型: 替换交叉
摘要:近年来,视频扩散模型(VDMs)取得了显著进展,使其能够生成高度逼真的视频,并引起了社区对其作为世界模拟器的潜在性的关注。然而,尽管具有这些能力,VDMs 由于缺乏对物理的理解,往往无法生成物理上合理的视频,导致错误的动力学和事件序列。为了应对这一限制,我们提出了一种新颖的两阶段图像到视频生成框架,该框架明确地融入了物理知识。在第一阶段,我们采用一种视觉语言模型(VLM)作为粗粒度的运动规划器,整合了思考链和物理意识推理,以预测近似实际物理动态的真实世界运动轨迹/变化,同时确保帧间的连贯性。在第二阶段,我们使用预测的运动轨迹/变化来引导VDM的视频生成。由于预测的运动轨迹/变化是粗略的,在推理时将添加噪声以提供给VDM更多的自由度,以便生成更精细的运动细节。广泛的实验结果表明,我们的框架可以生成物理上合理的运动,而对比评价则突显了我们方法在现有方法上的显著优越性。更多视频结果可在我们项目页面上获取:https://madaoer.github.io/projects/physically_plausible_video_generation。