LLM2D

摘要

图表问答（CQA）是视觉语言理解领域的关键方向。然而，当前视觉语言模型（VLM）在该领域的鲁棒性和一致性仍有待探索。本文在专门为本研究开发的全面数据集上评估了最先进的VLM，这些数据集涵盖了各种问题类别和图表格式。我们研究了两个关键方面：1）模型处理不同程度的图表和问题复杂性的能力，以及2）它们在相同底层数据的不同视觉表示上的鲁棒性。我们的分析揭示了基于问题和图表类型的显著性能差异，突出了当前模型的优势和劣势。此外，我们还确定了改进领域，并提出了未来的研究方向，以构建更健壮和可靠的CQA系统。本研究揭示了当前模型的局限性，并为该领域的未来发展铺平了道路。