摘要
arXiv:2504.04907v1 评估类型: cross
摘要: 视频生成评估对于确保生成模型生成视觉上真实、高质量的视频,并与人类预期保持一致至关重要。当前的视频生成基准主要可分为两类:传统的基准,它们利用度量和嵌入来从多个维度评估生成视频的质量,但往往与人类判断缺乏一致性;以及基于大型语言模型(LLL)的基准,虽然能够进行类似人类的推理,但在理解和跨模态一致性方面仍受到限制。为了解决这些挑战并建立一个更好地与人类偏好相一致的基准,本文引入了Video-Bench,这是一个全面的基准,包含丰富的提示套件和广泛的评估维度。这是首次在生成模型的视频生成评估中系统地利用MLLMs的尝试。通过结合少量示例评分和链式查询技术,Video-Bench 提供了一种结构化、可扩展的生成视频评估方法。在包括Sora在内的先进模型上的实验表明,Video-Bench 在所有维度上都与人类偏好实现了更好的一致。此外,在我们框架的评估与人类评估发生分歧的情况下,它始终提供更客观、准确的见解,表明相对于传统的基于人类的判断,它可能具有更大的优势。