LLM2D

摘要

arXiv:2503.23368v1 宣告类型：交叉摘要：近年来，视频扩散模型（VDMs）取得了显著进展，能够生成高度逼真的视频，并引起了研究界的关注，因其作为世界模拟器的潜力。然而，尽管具有这些能力，VDMs 由于缺乏对物理的理解，往往无法生成物理上可信的视频，导致不正确的动力学和事件序列。为了解决这一局限性，我们提出了一种新的两阶段图像到视频生成框架，明确地融合了物理知识。在第一阶段，我们采用视觉语言模型（VLM）作为粗粒度的运动规划器，结合链式思维和物理意识推理来预测近似真实世界物理动力学的粗略运动轨迹/变化，同时确保帧间一致性。在第二阶段，我们利用预测的运动轨迹/变化来引导VDM的视频生成。由于预测的运动轨迹/变化是粗略的，在推理过程中添加噪声以提供更多的自由度，使VDM能够生成更具精细细节的运动。广泛的实验结果表明，我们的框架能够生成物理上可信的运动，而比较评估则突显了我们方法在现有方法上的显著优越性。更多视频结果可在我们的项目页面上找到：https://madaoer.github.io/projects/physically_plausible_video_generation。