LLM2D

摘要

当前评估视觉语言模型 (VLMs) 的基准测试通常侧重于其感知或解决问题的能力，而忽略了公平性、多语言性或毒性等其他关键方面。此外，它们的评估程序和评估范围各不相同，使得模型比较变得困难。为了解决这些问题，我们将 HELM 框架扩展到 VLMs，提出了视觉语言模型的整体评估 (VHELM)。VHELM 聚合各种数据集，涵盖九个方面中的一个或多个：视觉感知、知识、推理、偏差、公平性、多语言性、鲁棒性、毒性和安全性。通过这样做，我们对 VLMs 在这些重要因素上的能力进行了全面、多维度的考察。此外，我们标准化了标准推理参数、提示方法和评估指标，以便能够对模型进行公平比较。我们的框架设计轻量且自动化，以便评估运行成本低廉且速度快。我们的初步运行评估了 21 个现有数据集上的 22 个 VLMs，以提供模型的整体快照。我们发现了新的关键发现，例如，注重效率的模型（例如，Claude 3 Haiku 或 Gemini 1.5 Flash）在偏差基准测试上的表现明显不如其完整模型（例如，Claude 3 Opus 或 Gemini 1.5 Pro），但在其他方面进行评估时则不然。为了透明起见，我们在我们的网站 (https://crfm.stanford.edu/helm/vhelm/v2.0.1) 上发布了原始模型生成和完整结果。VHELM 旨在成为一个动态的基准，我们希望随着时间的推移继续添加新的数据集和模型。