摘要
多模态大语言模型(MLLMs)在图像描述、视觉问答和推理等多个基准测试中被评估。然而,这些基准测试往往包含过于简单或无信息的样本,使得难以有效区分不同MLLMs的性能。此外,在多个基准测试中评估模型会带来显著的计算负担。为了解决这些问题,我们提出了LIME(Less Is More for MLLM Evaluation),这是一个经过精心筛选和高效设计的基准测试,通过半自动化的流程构建。该流程过滤掉无信息的样本,并通过专注于需要基于图像理解的任务来消除答案泄露。我们的实验表明,LIME减少了76%的样本数量和77%的评估时间,同时更有效地区分了模型。值得注意的是,我们发现传统的自动评估指标如CIDEr不足以评估MLLMs的描述性能,而排除描述任务得分能更准确地反映模型的整体性能。所有代码和数据可在https://github.com/kangreen0210/LIME获取。