LLM2D

摘要

大型视觉语言模型 (LVLMs) 的快速发展展现出巨大的潜力，这些模型越来越能够处理抽象的视觉任务。几何结构，特别是具有内在灵活性和复杂性的图，是评估这些模型预测能力的极佳基准。虽然人类观察者可以轻松识别细微的视觉细节并进行准确的分析，但我们的研究表明，最先进的LVLMs在特定的视觉图场景中表现出持续的局限性，尤其是在面对风格变化时。为了应对这些挑战，我们引入了VisGraphVar（视觉图变异性），这是一个可定制的基准生成器，能够为七个不同的任务类别（检测、分类、分割、模式识别、链接预测、推理、匹配）生成图图像，旨在系统地评估单个LVLMs的优缺点。我们使用VisGraphVar生成990张图图像并评估六个LVLMs，采用两种不同的提示策略，即零样本和思维链。研究结果表明，图像视觉属性（例如，节点标记和布局）的变化以及故意包含视觉缺陷（例如，节点重叠）会显著影响模型性能。这项研究强调了在图相关任务中进行全面评估的重要性，而不仅仅是推理。VisGraphVar提供了宝贵的见解，可以指导开发更可靠、更强大的系统，从而能够执行高级视觉图分析。