LLM2D
AutoBench-V:大型视觉-语言模型能自我 benchmark 吗?
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?
作者: Han Bao, Yue Huang, Yanbo Wang, Jiayi Ye, Xiangqi Wang, Xiuying Chen, Yue Zhao, Tianyi Zhou, Mohamed Elhoseiny, Xiangliang Zhang
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2410.21259v3

摘要

arXiv:2410.21259v3 宣告类型: replace-cross 摘要:大型视觉-语言模型(LVLMs)已成为推动视觉和语言信息集成的关键。然而,评估LVLMs面临着重大挑战,因为评估基准总是需要大量的人力成本来构建,并且一旦构建完成就缺乏灵活性。尽管在文本模态中已经探索了自动评估,但在视觉模态中仍然存在不足。因此,在本文中,我们回答了一个问题:“LVLMs本身是否可以在视觉自动领域中相互作为基准?”我们介绍了AutoBench-V,这是一个自动化的评估框架,可以根据特定的模型能力方面提供按需评估,即基于特定方面对LVLMs进行基准测试。AutoBench-V 利用文本到图像模型生成相关图像样本,然后利用LVLMs来协调视觉问答(VQA)任务,从而高效灵活地完成评估过程。通过针对五种所需用户输入(即评估能力)对九个流行的LVLMs进行全面评估,该框架显示了其有效性和可靠性。