LLM2D

摘要

图表问答 (ChartQA) 任务在解释和提取可视化图表中的见解方面起着至关重要的作用。虽然 GPT-4o 等多模态大型语言模型 (MLLM) 在图表字幕等高级 ChartQA 任务中表现出了前景，但它们在低级 ChartQA 任务（例如识别相关性）中的有效性仍未得到充分探索。在本文中，我们通过使用新整理的数据集 ChartInsights 评估 MLLM 在低级 ChartQA 上的表现来解决这一差距，该数据集包含 22,347 个（图表、任务、查询、答案）涵盖 7 种图表类型的 10 个数据分析任务。我们系统地评估了 19 个高级 MLLM，包括 12 个开源模型和 7 个闭源模型。这些模型的平均准确率为 39.8%，GPT-4o 的准确率最高，达到 69.17%。为了进一步探索 MLLM 在低级 ChartQA 中的局限性，我们进行了改变图表视觉元素（例如，更改配色方案、添加图像噪声）的实验，以评估它们对任务有效性的影响。此外，我们提出了一种新的文本提示策略，即 Chain-of-Charts，专门针对低级 ChartQA 任务，该策略将性能提升了 14.41%，准确率达到 83.58%。最后，通过引入将注意力引导到相关视觉元素的视觉提示策略，准确率进一步提高到 84.32%。