LLM2D

摘要

arXiv:2504.04907v2 通告类型: replace-cross 摘要：视频生成评估对于确保生成模型生成视觉真实且高质量的视频，同时与人类期望保持一致至关重要。当前的视频生成基准分为两类：传统基准，使用度量和嵌入来跨多个维度评估生成视频的质量，但往往与人类判断不一致；以及基于大型语言模型（LLM）的基准，尽管具备人类似的推理能力，但受制于对视频质量度量和跨模态一致性理解有限。为解决这些挑战并建立一个更好地符合人类偏好的基准，本文介绍了Video-Bench，一个全面的基准，包含丰富的提示套装和广泛的评估维度。Video-Bench 是首次尝试在视频生成评估的所有相关维度中系统地利用 MLLMs。通过引入少量提示评分和链式查询技术，Video-Bench 提供了一种结构化、可扩展的生成视频评估方法。实验表明，即使在包括 Sora 等高级模型上，Video-Bench 在所有维度上都实现了更好的与人类偏好一致的结果。此外，在我们的框架评估与人类评估出现分歧的情况下，它始终能提供更客观和准确的见解，这表明它比传统的基于人类判断的优势甚至更大。