LLM2D
Video-Bench:人体对齐视频生成基准
Video-Bench: Human-Aligned Video Generation Benchmark
作者: Hui Han, Siyuan Li, Jiaqi Chen, Yiwen Yuan, Yuling Wu, Chak Tou Leong, Hanwen Du, Junchen Fu, Youhua Li, Jie Zhang, Chi Zhang, Li-jia Li, Yongxin Ni
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.04907v2

摘要

arXiv:2504.04907v2 通告类型: replace-cross 摘要:视频生成评估对于确保生成模型生成视觉真实且高质量的视频,同时与人类期望保持一致至关重要。当前的视频生成基准分为两类:传统基准,使用度量和嵌入来跨多个维度评估生成视频的质量,但往往与人类判断不一致;以及基于大型语言模型(LLM)的基准,尽管具备人类似的推理能力,但受制于对视频质量度量和跨模态一致性理解有限。为解决这些挑战并建立一个更好地符合人类偏好的基准,本文介绍了Video-Bench,一个全面的基准,包含丰富的提示套装和广泛的评估维度。Video-Bench 是首次尝试在视频生成评估的所有相关维度中系统地利用 MLLMs。通过引入少量提示评分和链式查询技术,Video-Bench 提供了一种结构化、可扩展的生成视频评估方法。实验表明,即使在包括 Sora 等高级模型上,Video-Bench 在所有维度上都实现了更好的与人类偏好一致的结果。此外,在我们的框架评估与人类评估出现分歧的情况下,它始终能提供更客观和准确的见解,这表明它比传统的基于人类判断的优势甚至更大。