LLM2D

摘要

我们提出了一种名为PhysGen的新型图像到视频生成方法，该方法将单张图像和输入条件（例如，施加在图像中物体上的力矩和力）转换为逼真、物理上合理且时间上一致的视频。我们的关键见解是将基于模型的物理模拟与数据驱动的视频生成过程相结合，从而实现可信的图像空间动力学。我们系统核心包含三个主要组件：（i）一个图像理解模块，有效地捕获图像的几何形状、材质和物理参数；（ii）一个图像空间动力学模拟模型，利用刚体物理学和推断参数来模拟逼真的行为；以及（iii）一个基于图像的渲染和细化模块，利用生成视频扩散来生成具有模拟运动的逼真视频素材。生成的视频在物理和外观上都非常逼真，甚至可以精确控制，通过定量比较和全面的用户研究，展示了优于现有数据驱动图像到视频生成作品的结果。PhysGen生成的视频可以用于各种下游应用，例如将图像转换为逼真的动画，或者让用户与图像交互并创建各种动态。项目页面：https://stevenlsw.github.io/physgen/