摘要
我们提出了 LoCoVQA,一个用于评估视觉语言模型 (VLM) 长文本抽取推理的动态基准生成器。LoCoVQA 通过包含来自分布内和分布外干扰图像的越来越长的视觉上下文来增强数学推理、VQA 和字符识别任务的测试示例。
在这些任务中,各种 VLM 随着视觉上下文长度的增长,性能迅速下降,通常表现出惊人的对数衰减趋势。此测试评估了 VLM 在回答查询时忽略无关信息的能力——对于文本领域的语言模型 (LM) 来说,这是一个相当容易的任务——表明当前最先进的 VLM 缺乏许多长文本应用所必需的这种基本能力。