LLM2D
揭开真相:视觉语言模型真的理解图表吗?深入探究一致性和鲁棒性
Unraveling the Truth: Do VLMs really Understand Charts? A Deep Dive into Consistency and Robustness
作者: Srija Mukhopadhyay, Adnan Qidwai, Aparna Garimella, Pritika Ramu, Vivek Gupta, Dan Roth
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2407.11229v2

摘要

图表问答(CQA)是视觉语言理解领域的关键方向。然而,当前视觉语言模型(VLM)在该领域的鲁棒性和一致性仍有待探索。本文在专门为本研究开发的全面数据集上评估了最先进的VLM,这些数据集涵盖了各种问题类别和图表格式。我们研究了两个关键方面:1)模型处理不同程度的图表和问题复杂性的能力,以及2)它们在相同底层数据的不同视觉表示上的鲁棒性。我们的分析揭示了基于问题和图表类型的显著性能差异,突出了当前模型的优势和劣势。此外,我们还确定了改进领域,并提出了未来的研究方向,以构建更健壮和可靠的CQA系统。本研究揭示了当前模型的局限性,并为该领域的未来发展铺平了道路。