LLM2D

摘要

尽管取得了重大进展，大型多模态模型 (LMM) 仍然难以弥合低级视觉感知（专注于形状、大小和布局）与高级语言推理（例如语义和逻辑）之间的差距。这种局限性在需要精确视觉感知的任务中尤为明显，例如比较几何属性或解决视觉推理问题。为了研究这种失效模式，我们重点关注矢量图形——由二维对象和形状组成的图像，在基于 LMM 的 Web、设计和操作系统环境中的任务中十分常见。我们确定了两个关键的研究问题：如何实现精确的视觉感知，以及如何根据这些低级感知促进高级推理？为了捕捉精细的视觉细节，我们使用可缩放矢量图形 (SVG) 来精确编码视觉场景。然而，SVG 无法以零样本方式被 LMM 直接解释。为了解决这个问题，我们提出了视觉描述语言模型 (VDLM)，它引入了原始视觉描述 (PVD) 作为中间文本表示。PVD 将 SVG 翻译成基于文本的抽象，包含基本属性（例如形状、位置、测量）及其对应值。PVD 可以使用与任务无关的合成数据进行学习，并代表跨矢量图形通用的视觉基本元素。这种抽象更加结构化，允许基础模型直接解释，从而实现零样本泛化。在没有人工标注数据的情况下，实证结果表明，VDLM 在各种多模态感知和推理任务上显著提高了 GPT-4o 等最先进的 LMM 的性能。对 VDLM 的广泛分析表明，由于其解耦的感知和推理，其可解释性得到了改善。我们还证明了 PVD 质量与任务性能之间存在正相关性。项目页面：https://mikewangwzhl.github.io/VDLM/