LLM2D

摘要

arXiv:2504.09809v2 Announce Type: replace-cross 摘要：近年来，多模态大型语言模型（MLLM）的发展使语言模型能够联合推理视觉和语言。这使得MLLMs能够感知并回答关于各种设计和任务的数据可视化问题。将MLLMs应用于广泛的可视化任务需要我们适当评估它们的能力，最常见的评估方式是通过衡量模型的可视化推理能力，类似于我们评估人类对可视化的理解（例如，可视化素养）。然而，我们发现，在可视化问答（VisQA）的背景下，MLLMs如何感知和推理可视化与人类如何解决相同问题有着根本的不同。在评估过程中，即使没有提供可视化信息，模型也可以正确回答大量可视化测试问题。无论是否提供选择选项。我们假设语言模型中编码的大量知识使其能够进行事实记忆，这超越了从视觉信号中获取信息的必要性。这提出了一个令人担忧的问题，即当前的VisQA评估可能未能全面捕捉模型的可视化推理能力。为了解决这个问题，我们提出了一种综合的合理性检查框架，该框架结合了基于规则的决策树和合理性检查表，以分离“看见”（视觉处理）和“记忆”（依赖先验知识）的影响。这验证了用于评估的VisQA数据集，指出模型真正“看见”的地方，受到事实记忆的正面或负面影响，或依赖归纳偏见进行问答。我们的研究强调了在利用MLLMs进行未来可视化理解研究时需要仔细考虑。