LLM2D

摘要

arXiv:2501.03225v2 通告类型: 替换交叉摘要：视觉语言模型（VLMs）的快速发展要求严格的可靠评估。然而，当前的视觉问答（VQA）基准通常依赖于开放性问题，使得由于自然语言响应的变异性而难以进行准确评估。为了解决这一问题，我们引入了 AutoConverter，这是一种代理框架，可以自动将这些开放性问题转换为多项选择格式，从而在减少 costly 多项选择问题创建过程的同时实现客观评估。我们的实验表明，AutoConverter 可以生成正确的具有挑战性的多项选择问题，且 VLMs 在这些问题上的正确率与人类创建的问题相比，表现出一致的相近或更低。使用 AutoConverter，我们构建了 VMCBench，该基准通过对 20 个现有 VQA 数据集进行统一的多项选择格式转换，共计生成了 9,018 个问题。我们在 VMCBench 上全面评估了 33 个最先进的视觉语言模型，设立了可扩展的、一致的和可复现的视觉语言模型评估的新标准。