LLM2D

摘要

视觉语言模型（VLMs）已经改变了需要视觉和推理能力的任务，例如图像检索和视觉问答（VQA）。尽管取得了成功，但 VLMs 在涉及几何推理、代数问题求解和计数的任务方面面临着重大挑战。这些局限性源于有效整合多种模态和准确解释几何相关任务的困难。各种研究表明，在 VQA 任务之前引入一个字幕管道可以提高性能。我们在涉及几何、代数和计数的任务中整合了这个管道。我们发现字幕结果不可推广，特别是对于主要在 VQA 任务上进行训练的大型 VLMs，它们在与数学相关的挑战中表现出随机性能。然而，我们提出了一个有希望的替代方案：基于任务的提示，用特定于任务的指导来丰富提示。这种方法显示出希望，并且证明比直接字幕方法更有效地解决数学密集型问题。