LLM2D
VisGraphVar:基于大型视觉语言模型的图分析变异性评估基准生成器
VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models
作者: Camilo Chac\'on Sartori, Christian Blum, Filippo Bistaffa
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.14832v1

摘要

大型视觉语言模型 (LVLMs) 的快速发展展现出巨大的潜力,这些模型越来越能够处理抽象的视觉任务。几何结构,特别是具有内在灵活性和复杂性的图,是评估这些模型预测能力的极佳基准。虽然人类观察者可以轻松识别细微的视觉细节并进行准确的分析,但我们的研究表明,最先进的LVLMs在特定的视觉图场景中表现出持续的局限性,尤其是在面对风格变化时。为了应对这些挑战,我们引入了VisGraphVar(视觉图变异性),这是一个可定制的基准生成器,能够为七个不同的任务类别(检测、分类、分割、模式识别、链接预测、推理、匹配)生成图图像,旨在系统地评估单个LVLMs的优缺点。我们使用VisGraphVar生成990张图图像并评估六个LVLMs,采用两种不同的提示策略,即零样本和思维链。研究结果表明,图像视觉属性(例如,节点标记和布局)的变化以及故意包含视觉缺陷(例如,节点重叠)会显著影响模型性能。这项研究强调了在图相关任务中进行全面评估的重要性,而不仅仅是推理。VisGraphVar提供了宝贵的见解,可以指导开发更可靠、更强大的系统,从而能够执行高级视觉图分析。