摘要
arXiv:2501.03225v2 通告类型: 替换交叉
摘要:视觉语言模型(VLMs)的快速发展要求严格的可靠评估。然而,当前的视觉问答(VQA)基准通常依赖于开放性问题,使得由于自然语言响应的变异性而难以进行准确评估。为了解决这一问题,我们引入了 AutoConverter,这是一种代理框架,可以自动将这些开放性问题转换为多项选择格式,从而在减少 costly 多项选择问题创建过程的同时实现客观评估。我们的实验表明,AutoConverter 可以生成正确的具有挑战性的多项选择问题,且 VLMs 在这些问题上的正确率与人类创建的问题相比,表现出一致的相近或更低。使用 AutoConverter,我们构建了 VMCBench,该基准通过对 20 个现有 VQA 数据集进行统一的多项选择格式转换,共计生成了 9,018 个问题。我们在 VMCBench 上全面评估了 33 个最先进的视觉语言模型,设立了可扩展的、一致的和可复现的视觉语言模型评估的新标准。