LLM2D
PuzzleBench: 一个用于解谜的完全动态评估框架大型多模态模型
PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving
作者: Zeyu Zhang, Zijian Chen, Zicheng Zhang, Yuze Sun, Yuan Tian, Ziheng Jia, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10885v1

摘要

arXiv:2504.10885v1 宣布类型: cross 摘要:大型多模态模型(LMMs)在多种多模态任务中展现了令人印象深刻的性能,实现了各种评估基准上的不断增长的性能。然而,现有的基准通常是静态的,并且常常与预训练数据集重叠,导致固定的复杂性约束和严重的数据污染问题。同时,手动标注的数据集劳动密集型、耗时且容易受到人类偏见和不一致性的影响,导致可靠性和可重现性问题。为了解决这些问题,我们提出了一种完全动态的多模态评估框架,名为开放式视觉谜题生成(OVPG),该框架旨在自动在解谜任务中生成新鲜、多样且可验证的评估数据。具体而言,OVPG 管道包括原始材料采样模块、视觉内容生成模块和谜题规则设计模块,确保每个评估实例都是原始的、高度随机化的且具有唯一解的,从而连续适应 LMM 的不断发展的能力。基于 OVPG,我们构建了 PuzzleBench,这是一个动态且可扩展的基准,包含 11,840 个 VQA 样本。它包括六个精心设计的谜题任务,针对视觉识别、逻辑推理和语境理解三个核心 LMM 能力。PuzzleBench 与迅速过时的静态基准不同,它通过 OVPG 和丰富的开放式谜题设计,支持持续的数据集刷新,从而无缝适应 LMM 的不断发展的能力。