LLM2D
图表洞察:评估多模态大型语言模型在低级图表问答中的表现
ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering
作者: Yifan Wu, Lutao Yan, Leixian Shen, Yunhai Wang, Nan Tang, Yuyu Luo
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2405.07001v3

摘要

图表问答 (ChartQA) 任务在解释和提取可视化图表中的见解方面起着至关重要的作用。虽然 GPT-4o 等多模态大型语言模型 (MLLM) 在图表字幕等高级 ChartQA 任务中表现出了前景,但它们在低级 ChartQA 任务(例如识别相关性)中的有效性仍未得到充分探索。在本文中,我们通过使用新整理的数据集 ChartInsights 评估 MLLM 在低级 ChartQA 上的表现来解决这一差距,该数据集包含 22,347 个(图表、任务、查询、答案)涵盖 7 种图表类型的 10 个数据分析任务。我们系统地评估了 19 个高级 MLLM,包括 12 个开源模型和 7 个闭源模型。这些模型的平均准确率为 39.8%,GPT-4o 的准确率最高,达到 69.17%。为了进一步探索 MLLM 在低级 ChartQA 中的局限性,我们进行了改变图表视觉元素(例如,更改配色方案、添加图像噪声)的实验,以评估它们对任务有效性的影响。此外,我们提出了一种新的文本提示策略,即 Chain-of-Charts,专门针对低级 ChartQA 任务,该策略将性能提升了 14.41%,准确率达到 83.58%。最后,通过引入将注意力引导到相关视觉元素的视觉提示策略,准确率进一步提高到 84.32%。