LLM2D
用于矢量图形推理的视觉描述语言模型
Visually Descriptive Language Model for Vector Graphics Reasoning
作者: Zhenhailong Wang, Joy Hsu, Xingyao Wang, Kuan-Hao Huang, Manling Li, Jiajun Wu, Heng Ji
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2404.06479v4

摘要

尽管取得了重大进展,大型多模态模型 (LMM) 仍然难以弥合低级视觉感知(专注于形状、大小和布局)与高级语言推理(例如语义和逻辑)之间的差距。这种局限性在需要精确视觉感知的任务中尤为明显,例如比较几何属性或解决视觉推理问题。为了研究这种失效模式,我们重点关注矢量图形——由二维对象和形状组成的图像,在基于 LMM 的 Web、设计和操作系统环境中的任务中十分常见。我们确定了两个关键的研究问题:如何实现精确的视觉感知,以及如何根据这些低级感知促进高级推理?为了捕捉精细的视觉细节,我们使用可缩放矢量图形 (SVG) 来精确编码视觉场景。然而,SVG 无法以零样本方式被 LMM 直接解释。为了解决这个问题,我们提出了视觉描述语言模型 (VDLM),它引入了原始视觉描述 (PVD) 作为中间文本表示。PVD 将 SVG 翻译成基于文本的抽象,包含基本属性(例如形状、位置、测量)及其对应值。PVD 可以使用与任务无关的合成数据进行学习,并代表跨矢量图形通用的视觉基本元素。这种抽象更加结构化,允许基础模型直接解释,从而实现零样本泛化。在没有人工标注数据的情况下,实证结果表明,VDLM 在各种多模态感知和推理任务上显著提高了 GPT-4o 等最先进的 LMM 的性能。对 VDLM 的广泛分析表明,由于其解耦的感知和推理,其可解释性得到了改善。我们还证明了 PVD 质量与任务性能之间存在正相关性。项目页面:https://mikewangwzhl.github.io/VDLM/