摘要
当前评估视觉语言模型 (VLMs) 的基准测试通常侧重于其感知或解决问题的能力,而忽略了公平性、多语言性或毒性等其他关键方面。此外,它们的评估程序和评估范围各不相同,使得模型比较变得困难。为了解决这些问题,我们将 HELM 框架扩展到 VLMs,提出了视觉语言模型的整体评估 (VHELM)。VHELM 聚合各种数据集,涵盖九个方面中的一个或多个:视觉感知、知识、推理、偏差、公平性、多语言性、鲁棒性、毒性和安全性。通过这样做,我们对 VLMs 在这些重要因素上的能力进行了全面、多维度的考察。此外,我们标准化了标准推理参数、提示方法和评估指标,以便能够对模型进行公平比较。我们的框架设计轻量且自动化,以便评估运行成本低廉且速度快。我们的初步运行评估了 21 个现有数据集上的 22 个 VLMs,以提供模型的整体快照。我们发现了新的关键发现,例如,注重效率的模型(例如,Claude 3 Haiku 或 Gemini 1.5 Flash)在偏差基准测试上的表现明显不如其完整模型(例如,Claude 3 Opus 或 Gemini 1.5 Pro),但在其他方面进行评估时则不然。为了透明起见,我们在我们的网站 (https://crfm.stanford.edu/helm/vhelm/v2.0.1) 上发布了原始模型生成和完整结果。VHELM 旨在成为一个动态的基准,我们希望随着时间的推移继续添加新的数据集和模型。