摘要
arXiv:2411.13281v2 宣布类型: replace-cross
摘要:具有高级视频分析能力的大规模多模态模型(LMMs)最近引起了广泛关注。然而,大多数评估依赖于基准指标如 VideoMME 和 LongVideoBench 中的传统方法,如多项选择题,这些方法容易缺乏足够的深度来捕捉实际用户复杂的需求。为了解决这一限制——鉴于视频任务的人工标注成本高昂且进展缓慢——我们引入了 VideoAutoArena,这是一种受 LMSYS Chatbot Arena 框架启发的大规模多模态模型竞技场基准,旨在自动评估 LMMs 的视频分析能力。VideoAutoArena 利用用户模拟生成开放且自适应的问题,严格评估模型在视频理解方面的表现。该基准包含了一个自动化的可扩展评估框架,结合了修改后的 ELO 排名系统,实现了多个 LMMs 的公平且持续的比较。为了验证我们的自动评分系统,我们构建了一个“黄金标准”,使用精心挑选的人工标注子集,证明了我们的竞技场与人类判断高度一致,同时保持了可扩展性。此外,我们引入了一种基于故障的进化策略,逐步增加问题的复杂性,以推动模型处理更复杂的视频分析场景。实验结果表明,VideoAutoArena 有效地区分开目前最先进的 LMMs,提供了关于模型优势和改进领域的见解。为了进一步简化我们的评估,我们引入了 VideoAutoBench 作为辅助基准,在 VideoAutoArena 比赛的子集中,人类注释员标注获胜者。我们使用 GPT-4o 作为法官,将模型的响应与这些经过人类验证的答案进行对比。一起,VideoAutoArena 和 VideoAutoBench 为用户中心的视频分析评估提供了一个成本效益高且可扩展的框架。