LLM2D
FingER:内容感知的细粒度评估与推理框架用于AI生成的视频
FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos
作者: Rui Chen, Lei Sun, Jing Tang, Geng Li, Xiangxiang Chu
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.10358v1

摘要

arXiv:2504.10358v1 Announce Type: cross 摘要:近期在视频生成方面的进展为评估AI生成的内容带来了巨大挑战,特别是在日益复杂的模型出现之后。这些视频中存在的各种不一致性和缺陷本质上是复杂的,使得整体评分变得非常困难。在本文中,我们强调在视频评估中整合细粒度推理的重要性,并提出了一种新颖的实体级推理评估框架FingER,该框架首先自动生成细粒度实体级问题,然后通过评分推理模型回答这些问题,这些答案可以加权求和得到不同的应用场景的总体评分。具体来说,我们利用大规模语言模型(LLMs)从五个不同的视角推导出实体级问题,这(i)常常关注内容中的某些特定实体,从而使多模态语言模型(MLLMs)更容易回答或评分,并且(ii)更具可解释性。然后我们构建了FingER数据集,其中包括大约3300个视频和相应的6万个细粒度的问答注解,每条注解都有详细的理由。基于此,我们进一步研究了各种培训协议,以最好地激励MLLMs的推理能力,以进行正确的答案预测。广泛的实验表明,使用组相对策略优化(GRPO)并采用冷启动策略训练的推理模型实现了最佳性能。值得注意的是,我们的模型在GenAI-Bench上比现有方法高出11.8%,在MonetBench上高出5.5%,仅使用3300个训练视频,是其他方法所使用训练样本的十分之一。我们的代码和数据集将很快公布。