LLM2D
揭露欺骗性视觉内容:多模态大语言模型在误导性图表问题回答任务上的基准测试
Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering
作者: Zixin Chen, Sicheng Song, Kashun Shum, Yanna Lin, Rui Sheng, Huamin Qu
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2503.18172v3

摘要

arXiv:2503.18172v3 通告类型: replace-cross 摘要: 故意篡改数据表示以支持特定声明的误导性图表可视化可以扭曲人们的感知,并导致错误的结论。尽管经过了数十年的研究,误导性图表仍然是一个普遍且紧迫的问题。最近,多模态大型语言模型(MLLMs)在图表理解方面展现出了强大的能力,然而迄今为止尚未有工作系统地评估其检测和解释误导性图表的能力。本文介绍了误导性图表问答基准(Misleading ChartQA),这是一个大规模多模态数据集,旨在评估MLLMs在识别和推理误导性图表方面的性能。该数据集包含超过3,000个精心挑选的例子,涵盖了21种类型的误导和10种图表类型。每个例子包括标准化的图表代码、CSV数据和带有标注解释的多项选择题,这些解释已经通过多轮MLLM检查和彻底的专家人工审核进行了验证。我们在我们的数据集上对16种最先进的MLLM进行了基准测试,揭示了它们在识别视觉上欺骗性实践方面的局限性。我们还提出了一种新的管道,用于检测和定位误导,从而增强MLLMs在误导性图表解释方面的准确性。我们的工作为通过MLLM驱动的误导性图表理解的进步奠定了基础。我们公开发布了样本数据集,以支持对该关键领域的进一步研究。