LLM2D

摘要

多模态大语言模型（MLLMs）在图像描述、视觉问答和推理等多个基准测试中被评估。然而，这些基准测试往往包含过于简单或无信息的样本，使得难以有效区分不同MLLMs的性能。此外，在多个基准测试中评估模型会带来显著的计算负担。为了解决这些问题，我们提出了LIME（Less Is More for MLLM Evaluation），这是一个经过精心筛选和高效设计的基准测试，通过半自动化的流程构建。该流程过滤掉无信息的样本，并通过专注于需要基于图像理解的任务来消除答案泄露。我们的实验表明，LIME减少了76%的样本数量和77%的评估时间，同时更有效地区分了模型。值得注意的是，我们发现传统的自动评估指标如CIDEr不足以评估MLLMs的描述性能，而排除描述任务得分能更准确地反映模型的整体性能。所有代码和数据可在https://github.com/kangreen0210/LIME获取。