LLM2D

摘要

arXiv:2504.04907v1 评估类型: cross 摘要: 视频生成评估对于确保生成模型生成视觉上真实、高质量的视频，并与人类预期保持一致至关重要。当前的视频生成基准主要可分为两类：传统的基准，它们利用度量和嵌入来从多个维度评估生成视频的质量，但往往与人类判断缺乏一致性；以及基于大型语言模型(LLL)的基准，虽然能够进行类似人类的推理，但在理解和跨模态一致性方面仍受到限制。为了解决这些挑战并建立一个更好地与人类偏好相一致的基准，本文引入了Video-Bench，这是一个全面的基准，包含丰富的提示套件和广泛的评估维度。这是首次在生成模型的视频生成评估中系统地利用MLLMs的尝试。通过结合少量示例评分和链式查询技术，Video-Bench 提供了一种结构化、可扩展的生成视频评估方法。在包括Sora在内的先进模型上的实验表明，Video-Bench 在所有维度上都与人类偏好实现了更好的一致。此外，在我们框架的评估与人类评估发生分歧的情况下，它始终提供更客观、准确的见解，表明相对于传统的基于人类的判断，它可能具有更大的优势。