摘要
arXiv:2505.00337v1 Announce Type: cross
摘要:文本到视频生成模型近年来取得了显著进展,能够生成在审美和指令遵循方面都表现出色的高质量视频,已成为数字艺术创作和在线用户参与的核心。然而,尽管取得了这些进展,这些模型在尊重基本物理定律方面的能力仍主要未经测试:许多输出仍违反了诸如刚体碰撞、能量守恒和重力动力学等基本约束,导致内容不现实,甚至误导性。现有的物理评估基准通常依赖于自动的像素级指标,应用于简化的日常生活场景提示,因此忽略了人类判断和基本物理原理。为了弥补这一差距,我们引入了 \textbf{T2VPhysBench},这是一个基于基本原理的基准,系统评估最先进的文本到视频系统(无论是开源的还是商业的)是否服从十二项核心物理定律,包括牛顿力学、守恒原理和外在效应。我们的基准使用了严格的评估协议,并包括三个目标研究:(1)整体合规性评估,结果显示所有模型在每项定律类别中的平均得分为0.60以下;(2)提示削减研究揭示,即便是专门针对特定物理定律的详细提示也无法纠正物理违规;(3)反事实鲁棒性测试显示,当模型被如此指示时,它们往往会生成违反物理规则的视频。研究结果揭示了当前架构的持续限制,并提供了对未来研究的指导,以实现真正具备物理意识的视频生成。