LLM2D

摘要

arXiv:2504.10885v1 宣布类型: cross 摘要：大型多模态模型（LMMs）在多种多模态任务中展现了令人印象深刻的性能，实现了各种评估基准上的不断增长的性能。然而，现有的基准通常是静态的，并且常常与预训练数据集重叠，导致固定的复杂性约束和严重的数据污染问题。同时，手动标注的数据集劳动密集型、耗时且容易受到人类偏见和不一致性的影响，导致可靠性和可重现性问题。为了解决这些问题，我们提出了一种完全动态的多模态评估框架，名为开放式视觉谜题生成（OVPG），该框架旨在自动在解谜任务中生成新鲜、多样且可验证的评估数据。具体而言，OVPG 管道包括原始材料采样模块、视觉内容生成模块和谜题规则设计模块，确保每个评估实例都是原始的、高度随机化的且具有唯一解的，从而连续适应 LMM 的不断发展的能力。基于 OVPG，我们构建了 PuzzleBench，这是一个动态且可扩展的基准，包含 11,840 个 VQA 样本。它包括六个精心设计的谜题任务，针对视觉识别、逻辑推理和语境理解三个核心 LMM 能力。PuzzleBench 与迅速过时的静态基准不同，它通过 OVPG 和丰富的开放式谜题设计，支持持续的数据集刷新，从而无缝适应 LMM 的不断发展的能力。