LLM2D

摘要

arXiv:2505.00337v1 Announce Type: cross 摘要：文本到视频生成模型近年来取得了显著进展，能够生成在审美和指令遵循方面都表现出色的高质量视频，已成为数字艺术创作和在线用户参与的核心。然而，尽管取得了这些进展，这些模型在尊重基本物理定律方面的能力仍主要未经测试：许多输出仍违反了诸如刚体碰撞、能量守恒和重力动力学等基本约束，导致内容不现实，甚至误导性。现有的物理评估基准通常依赖于自动的像素级指标，应用于简化的日常生活场景提示，因此忽略了人类判断和基本物理原理。为了弥补这一差距，我们引入了 \textbf{T2VPhysBench}，这是一个基于基本原理的基准，系统评估最先进的文本到视频系统（无论是开源的还是商业的）是否服从十二项核心物理定律，包括牛顿力学、守恒原理和外在效应。我们的基准使用了严格的评估协议，并包括三个目标研究：（1）整体合规性评估，结果显示所有模型在每项定律类别中的平均得分为0.60以下；（2）提示削减研究揭示，即便是专门针对特定物理定律的详细提示也无法纠正物理违规；（3）反事实鲁棒性测试显示，当模型被如此指示时，它们往往会生成违反物理规则的视频。研究结果揭示了当前架构的持续限制，并提供了对未来研究的指导，以实现真正具备物理意识的视频生成。