摘要
arXiv:2501.09038v2 通知类型: 交叉替换
摘要:AI 视频生成正在经历一场革命,质量与真实性迅速提高。这些进步引发了激烈的科学争论:视频模型是否学习了“世界模型”,发现了物理定律——或者,它们仅仅是高级的像素预测器,能够在不理解现实物理原理的情况下实现视觉真实性?我们通过开发 Physics-IQ,一个只能通过深刻理解各种物理原理(如流体动力学、光学、固体力学、磁学和热力学)才能解决的综合基准数据集,来探讨这一问题。我们发现,目前的几种模型(Sora、Runway、Pika、Lumiere、Stable Video Diffusion 和 VideoPoet)对物理的理解严重有限,并且与视觉真实性无关。与此同时,一些测试用例已经可以成功解决。这表明,仅凭观察就获取一定的物理原理可能是可能的,但仍然存在重大挑战。尽管我们预期未来将有快速进步,但我们的工作表明,视觉真实性并不意味着物理理解。我们的项目页面位于 https://physics-iq.github.io;代码位于 https://github.com/google-deepmind/physics-IQ-benchmark。