LLM2D

摘要

arXiv:2503.23368v3 宣布类型: replace-cross 摘要：近年来，视频扩散模型（VDMs）取得了显著进展，使其能够生成高度逼真的视频，并引起了人们对它们作为世界模拟器的潜力的关注。然而，尽管具有这些能力，VDMs 由于对物理现象缺乏内在的理解，往往无法产生物理上合理的视频，导致不正确的动态和事件序列。为了解决这一局限性，我们提出了一种新颖的两阶段图像到视频生成框架，该框架明确将物理现象与基于视觉和语言的物理先验相结合。在第一阶段，我们采用视觉语言模型（VLM）作为粗粒度的运动规划器，结合思考过程和物理感知的推理，预测近似的运动轨迹/变化，以近似真实世界的物理动力学，同时保证帧间的连贯性。在第二阶段，我们使用预测的运动轨迹/变化来指导VDM的视频生成。由于预测的运动轨迹/变化是粗略的，在推理过程中添加噪声以提供VDM在生成更多细节动作方面的自由度。广泛实验结果表明，我们的框架可以生成物理上合理的运动，并与现有方法的比较评价突显了我们方法的显著优势。更多视频结果可在我们的项目页面上找到：https://madaoer.github.io/projects/physically_plausible_video_generation。