LLM2D

摘要

arXiv:2504.10358v1 Announce Type: cross 摘要：近期在视频生成方面的进展为评估AI生成的内容带来了巨大挑战，特别是在日益复杂的模型出现之后。这些视频中存在的各种不一致性和缺陷本质上是复杂的，使得整体评分变得非常困难。在本文中，我们强调在视频评估中整合细粒度推理的重要性，并提出了一种新颖的实体级推理评估框架FingER，该框架首先自动生成细粒度实体级问题，然后通过评分推理模型回答这些问题，这些答案可以加权求和得到不同的应用场景的总体评分。具体来说，我们利用大规模语言模型(LLMs)从五个不同的视角推导出实体级问题，这(i)常常关注内容中的某些特定实体，从而使多模态语言模型(MLLMs)更容易回答或评分，并且(ii)更具可解释性。然后我们构建了FingER数据集，其中包括大约3300个视频和相应的6万个细粒度的问答注解，每条注解都有详细的理由。基于此，我们进一步研究了各种培训协议，以最好地激励MLLMs的推理能力，以进行正确的答案预测。广泛的实验表明，使用组相对策略优化(GRPO)并采用冷启动策略训练的推理模型实现了最佳性能。值得注意的是，我们的模型在GenAI-Bench上比现有方法高出11.8%，在MonetBench上高出5.5%，仅使用3300个训练视频，是其他方法所使用训练样本的十分之一。我们的代码和数据集将很快公布。