LLM2D

摘要

arXiv:2502.05503v1 类别: cross 摘要：最近在视频生成模型方面取得的进展表明它们作为世界模拟器的潜力，但它们往往难以处理不符合物理定律的视频，这是大多数文本到视频基准所忽视的关键关注点。我们引入了一个专门用于评估生成视频物理一致性的新基准，PhyCoBench。该基准包含120个提示，涵盖7类物理原理，捕捉视频内容中可观测到的关键物理定律。我们对PhyCoBench上的四种最先进的（SoTA）T2V模型进行了评估，并进行了手动评估。此外，我们还提出了一种自动评估模型：PhyCoPredictor，这是一种在级联方式下生成光学流动和视频帧的扩散模型。通过自动评估和手动排序的一致性评估，实验结果表明PhyCoPredictor目前最接近于人类评估。因此，它可以有效地评估视频的物理一致性，为未来的模型优化提供见解。我们的基准，包括物理一致性提示、自动评估工具PhyCoPredictor和生成的视频数据集，将在不久之后发布在GitHub上。