摘要
图表问答(CQA)是视觉语言理解领域的关键方向。然而,当前视觉语言模型(VLM)在该领域的鲁棒性和一致性仍有待探索。本文在专门为本研究开发的全面数据集上评估了最先进的VLM,这些数据集涵盖了各种问题类别和图表格式。我们研究了两个关键方面:1)模型处理不同程度的图表和问题复杂性的能力,以及2)它们在相同底层数据的不同视觉表示上的鲁棒性。我们的分析揭示了基于问题和图表类型的显著性能差异,突出了当前模型的优势和劣势。此外,我们还确定了改进领域,并提出了未来的研究方向,以构建更健壮和可靠的CQA系统。本研究揭示了当前模型的局限性,并为该领域的未来发展铺平了道路。