LLM2D

摘要

arXiv:2501.09038v2 通知类型: 交叉替换摘要：AI 视频生成正在经历一场革命，质量与真实性迅速提高。这些进步引发了激烈的科学争论：视频模型是否学习了“世界模型”，发现了物理定律——或者，它们仅仅是高级的像素预测器，能够在不理解现实物理原理的情况下实现视觉真实性？我们通过开发 Physics-IQ，一个只能通过深刻理解各种物理原理（如流体动力学、光学、固体力学、磁学和热力学）才能解决的综合基准数据集，来探讨这一问题。我们发现，目前的几种模型（Sora、Runway、Pika、Lumiere、Stable Video Diffusion 和 VideoPoet）对物理的理解严重有限，并且与视觉真实性无关。与此同时，一些测试用例已经可以成功解决。这表明，仅凭观察就获取一定的物理原理可能是可能的，但仍然存在重大挑战。尽管我们预期未来将有快速进步，但我们的工作表明，视觉真实性并不意味着物理理解。我们的项目页面位于 https://physics-iq.github.io；代码位于 https://github.com/google-deepmind/physics-IQ-benchmark。