摘要
arXiv:2504.09809v2 Announce Type: replace-cross
摘要:近年来,多模态大型语言模型(MLLM)的发展使语言模型能够联合推理视觉和语言。这使得MLLMs能够感知并回答关于各种设计和任务的数据可视化问题。将MLLMs应用于广泛的可视化任务需要我们适当评估它们的能力,最常见的评估方式是通过衡量模型的可视化推理能力,类似于我们评估人类对可视化的理解(例如,可视化素养)。然而,我们发现,在可视化问答(VisQA)的背景下,MLLMs如何感知和推理可视化与人类如何解决相同问题有着根本的不同。在评估过程中,即使没有提供可视化信息,模型也可以正确回答大量可视化测试问题。无论是否提供选择选项。我们假设语言模型中编码的大量知识使其能够进行事实记忆,这超越了从视觉信号中获取信息的必要性。这提出了一个令人担忧的问题,即当前的VisQA评估可能未能全面捕捉模型的可视化推理能力。为了解决这个问题,我们提出了一种综合的合理性检查框架,该框架结合了基于规则的决策树和合理性检查表,以分离“看见”(视觉处理)和“记忆”(依赖先验知识)的影响。这验证了用于评估的VisQA数据集,指出模型真正“看见”的地方,受到事实记忆的正面或负面影响,或依赖归纳偏见进行问答。我们的研究强调了在利用MLLMs进行未来可视化理解研究时需要仔细考虑。