摘要
arXiv:2502.05503v2 Announce Type: replace-cross
摘要:近期的视频生成模型展示了其作为世界模拟器的潜力,但它们往往难以处理与物理定律偏离的视频,这一关键问题常被大多数文本到视频基准所忽视。我们引入了一个专门用于评估生成视频的物理一致性基准——PhyCoBench。该基准包含120个提示,涵盖7类物理原理,捕捉了视频内容中可观察到的关键物理定律。我们对PhyCoBench上四种现有最先进的(SoTA)文本到视频模型进行了评估,并进行了人工评估。此外,我们提出了一种自动评估模型:PhyCoPredictor,这是一种通过级联方式生成光学流和视频帧的扩散模型。通过对比自动和人工排序的一致性评估,实验结果表明PhyCoPredictor目前最接近于人类评估的标准。因此,它可以有效地评估视频的物理一致性,为未来的模型优化提供见解。我们的基准包括物理一致性提示、自动评估工具PhyCoPredictor以及生成的视频数据集,已在GitHub上发布,地址为https://github.com/Jeckinchen/PhyCoBench。