LLM2D
基于光学流动引导帧预测的物理连贯性基准,用于评估视频生成模型
A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction
作者: Yongfan Chen, Xiuwen Zhu, Tianyu Li, Hao Chen, Chunhua Shen
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.05503v2

摘要

arXiv:2502.05503v2 Announce Type: replace-cross 摘要:近期的视频生成模型展示了其作为世界模拟器的潜力,但它们往往难以处理与物理定律偏离的视频,这一关键问题常被大多数文本到视频基准所忽视。我们引入了一个专门用于评估生成视频的物理一致性基准——PhyCoBench。该基准包含120个提示,涵盖7类物理原理,捕捉了视频内容中可观察到的关键物理定律。我们对PhyCoBench上四种现有最先进的(SoTA)文本到视频模型进行了评估,并进行了人工评估。此外,我们提出了一种自动评估模型:PhyCoPredictor,这是一种通过级联方式生成光学流和视频帧的扩散模型。通过对比自动和人工排序的一致性评估,实验结果表明PhyCoPredictor目前最接近于人类评估的标准。因此,它可以有效地评估视频的物理一致性,为未来的模型优化提供见解。我们的基准包括物理一致性提示、自动评估工具PhyCoPredictor以及生成的视频数据集,已在GitHub上发布,地址为https://github.com/Jeckinchen/PhyCoBench。