LLM2D

摘要

arXiv:2503.18172v2 Announce Type: replace-cross 摘要：故意操纵数据表示以支持特定主张的误导性图表可视化可能扭曲人们的感知并导致错误的结论。尽管开展了数十年的研究，误导性可视化仍然是一种普遍存在且迫切的问题。最近，多模态大型语言模型（MLLMs）的进步展示了强大的图表理解能力，但目前没有任何工作系统地评估它们检测和解释误导性图表的能力。本文介绍了误导性图表问答基准（Misleading ChartQA），这是一个大型多模态数据集，旨在评估MLLMs在识别和推理误导性图表方面的表现。该数据集包含超过3000个精心挑选的例子，涵盖了21种误导类型和10种图表类型。每个例子包括标准化的图表代码、CSV数据以及带有标注解释的多项选择题，这些题目的正确性通过多轮MLLM检查和彻底的人类专家审查进行了验证。我们对我们的数据集上的16种最先进的MLLM进行了基准测试，揭示了它们在识别视觉欺骗性实践方面的局限性。我们还提出了一种新的流水线，用于检测和定位误导，提高了MLLMs在解释误导性图表方面的准确性。我们的工作为推动MLLM驱动的误导性图表理解奠定了基础。我们公开发布了样本数据集，以支持在这一关键领域进一步的研究。