摘要
arXiv:2503.06163v2 宣告类型: 替换
摘要: 随着基于文本条件的视频生成模型(VGMs)的迅速发展,生成的视频质量有了显著提高,这些模型更接近于成为“世界模拟器”,使得在现实世界水平上生成视频变得更加可行和成本效益更高。然而,生成的视频往往包含事实错误,并且缺乏对基本物理定律的理解。虽然一些之前的研究通过手工分析在有限的领域中突显了这个问题,但至今尚未建立全面的解决方法,主要原因是缺乏一个通用的自动方法来建模和评估这些模型在各种场景中的因果推理。为了解决这一差距,我们提出了 VACT:一个**自动**的框架,用于在现实世界场景中建模、评估和测量 VGMs 的因果理解。通过结合因果分析技术和精心设计的大语言模型助手,我们的系统可以在无需人工注释的情况下评估模型在各种场景下的因果行为,这提供了强大的泛化能力和可扩展性。此外,我们引入了多层次的因果评估指标,以详细分析 VGMs 的因果性能。作为演示,我们使用我们的框架对几种流行的 VGMs 进行基准测试,揭示了其因果推理能力。我们的工作为基础系统地解决 VGMs 中的因果理解缺陷奠定了基础,并有助于提高其可靠性和现实世界的适用性。