LLM2D

摘要

近年来，互联网规模的视频数据预训练取得了重大进展，促使文本到视频生成模型的出现，这些模型能够跨越广泛的视觉概念创建高质量视频，合成逼真的运动并渲染复杂的物体。因此，这些生成模型有可能成为物理世界的通用模拟器。然而，目前尚不清楚现有文本到视频生成模型距离这一目标还有多远。为此，我们提出了 VideoPhy，这是一个旨在评估生成的视频是否遵循现实世界活动中物理常识的基准（例如，弹珠放在倾斜的表面上会滚下来）。具体来说，我们精心策划了各种提示，这些提示涉及物理世界中各种材料类型之间的相互作用（例如，固体-固体、固体-流体、流体-流体）。然后，我们根据这些来自各种最先进的文本到视频生成模型的标题生成视频，包括开放模型（例如，CogVideoX）和封闭模型（例如，Lumiere、Dream Machine）。我们的用户评估表明，现有模型严重缺乏生成符合给定文本提示的视频的能力，同时还缺乏物理常识。具体来说，表现最佳的模型 CogVideoX-5B 生成的视频只有 39.6% 的情况下符合标题和物理定律。因此，VideoPhy 强调了视频生成模型距离准确模拟物理世界还很远。最后，我们提出了一个自动评估器 VideoCon-Physics，以便可靠地评估新发布的模型的性能。