LLM2D

摘要

arXiv:2503.23368v2 宣告类型: 替换交叉摘要：近年来，视频扩散模型（VDMs）取得了显著进展，使其能够生成高度逼真的视频，并引起了社区对其作为世界模拟器的潜在性的关注。然而，尽管具有这些能力，VDMs 由于缺乏对物理的理解，往往无法生成物理上合理的视频，导致错误的动力学和事件序列。为了应对这一限制，我们提出了一种新颖的两阶段图像到视频生成框架，该框架明确地融入了物理知识。在第一阶段，我们采用一种视觉语言模型（VLM）作为粗粒度的运动规划器，整合了思考链和物理意识推理，以预测近似实际物理动态的真实世界运动轨迹/变化，同时确保帧间的连贯性。在第二阶段，我们使用预测的运动轨迹/变化来引导VDM的视频生成。由于预测的运动轨迹/变化是粗略的，在推理时将添加噪声以提供给VDM更多的自由度，以便生成更精细的运动细节。广泛的实验结果表明，我们的框架可以生成物理上合理的运动，而对比评价则突显了我们方法在现有方法上的显著优越性。更多视频结果可在我们项目页面上获取：https://madaoer.github.io/projects/physically_plausible_video_generation。