LLM2D
VLIPP:基于视觉语言指导物理先验的物理上可验证的视频生成
VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior
作者: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2503.23368v3

摘要

arXiv:2503.23368v3 宣布类型: replace-cross 摘要:近年来,视频扩散模型(VDMs)取得了显著进展,使其能够生成高度逼真的视频,并引起了人们对它们作为世界模拟器的潜力的关注。然而,尽管具有这些能力,VDMs 由于对物理现象缺乏内在的理解,往往无法产生物理上合理的视频,导致不正确的动态和事件序列。为了解决这一局限性,我们提出了一种新颖的两阶段图像到视频生成框架,该框架明确将物理现象与基于视觉和语言的物理先验相结合。在第一阶段,我们采用视觉语言模型(VLM)作为粗粒度的运动规划器,结合思考过程和物理感知的推理,预测近似的运动轨迹/变化,以近似真实世界的物理动力学,同时保证帧间的连贯性。在第二阶段,我们使用预测的运动轨迹/变化来指导VDM的视频生成。由于预测的运动轨迹/变化是粗略的,在推理过程中添加噪声以提供VDM在生成更多细节动作方面的自由度。广泛实验结果表明,我们的框架可以生成物理上合理的运动,并与现有方法的比较评价突显了我们方法的显著优势。更多视频结果可在我们的项目页面上找到:https://madaoer.github.io/projects/physically_plausible_video_generation。