LLM2D

摘要

arXiv:2410.21259v3 宣告类型: replace-cross 摘要：大型视觉-语言模型（LVLMs）已成为推动视觉和语言信息集成的关键。然而，评估LVLMs面临着重大挑战，因为评估基准总是需要大量的人力成本来构建，并且一旦构建完成就缺乏灵活性。尽管在文本模态中已经探索了自动评估，但在视觉模态中仍然存在不足。因此，在本文中，我们回答了一个问题：“LVLMs本身是否可以在视觉自动领域中相互作为基准？”我们介绍了AutoBench-V，这是一个自动化的评估框架，可以根据特定的模型能力方面提供按需评估，即基于特定方面对LVLMs进行基准测试。AutoBench-V 利用文本到图像模型生成相关图像样本，然后利用LVLMs来协调视觉问答（VQA）任务，从而高效灵活地完成评估过程。通过针对五种所需用户输入（即评估能力）对九个流行的LVLMs进行全面评估，该框架显示了其有效性和可靠性。