LLM2D

摘要

arXiv:2411.13281v2 宣布类型: replace-cross 摘要：具有高级视频分析能力的大规模多模态模型（LMMs）最近引起了广泛关注。然而，大多数评估依赖于基准指标如 VideoMME 和 LongVideoBench 中的传统方法，如多项选择题，这些方法容易缺乏足够的深度来捕捉实际用户复杂的需求。为了解决这一限制——鉴于视频任务的人工标注成本高昂且进展缓慢——我们引入了 VideoAutoArena，这是一种受 LMSYS Chatbot Arena 框架启发的大规模多模态模型竞技场基准，旨在自动评估 LMMs 的视频分析能力。VideoAutoArena 利用用户模拟生成开放且自适应的问题，严格评估模型在视频理解方面的表现。该基准包含了一个自动化的可扩展评估框架，结合了修改后的 ELO 排名系统，实现了多个 LMMs 的公平且持续的比较。为了验证我们的自动评分系统，我们构建了一个“黄金标准”，使用精心挑选的人工标注子集，证明了我们的竞技场与人类判断高度一致，同时保持了可扩展性。此外，我们引入了一种基于故障的进化策略，逐步增加问题的复杂性，以推动模型处理更复杂的视频分析场景。实验结果表明，VideoAutoArena 有效地区分开目前最先进的 LMMs，提供了关于模型优势和改进领域的见解。为了进一步简化我们的评估，我们引入了 VideoAutoBench 作为辅助基准，在 VideoAutoArena 比赛的子集中，人类注释员标注获胜者。我们使用 GPT-4o 作为法官，将模型的响应与这些经过人类验证的答案进行对比。一起，VideoAutoArena 和 VideoAutoBench 为用户中心的视频分析评估提供了一个成本效益高且可扩展的框架。