LLM2D

摘要

arXiv:2502.05503v2 Announce Type: replace-cross 摘要：近期的视频生成模型展示了其作为世界模拟器的潜力，但它们往往难以处理与物理定律偏离的视频，这一关键问题常被大多数文本到视频基准所忽视。我们引入了一个专门用于评估生成视频的物理一致性基准——PhyCoBench。该基准包含120个提示，涵盖7类物理原理，捕捉了视频内容中可观察到的关键物理定律。我们对PhyCoBench上四种现有最先进的（SoTA）文本到视频模型进行了评估，并进行了人工评估。此外，我们提出了一种自动评估模型：PhyCoPredictor，这是一种通过级联方式生成光学流和视频帧的扩散模型。通过对比自动和人工排序的一致性评估，实验结果表明PhyCoPredictor目前最接近于人类评估的标准。因此，它可以有效地评估视频的物理一致性，为未来的模型优化提供见解。我们的基准包括物理一致性提示、自动评估工具PhyCoPredictor以及生成的视频数据集，已在GitHub上发布，地址为https://github.com/Jeckinchen/PhyCoBench。