摘要
视觉语言模型(VLMs)已经改变了需要视觉和推理能力的任务,例如图像检索和视觉问答(VQA)。尽管取得了成功,但 VLMs 在涉及几何推理、代数问题求解和计数的任务方面面临着重大挑战。这些局限性源于有效整合多种模态和准确解释几何相关任务的困难。各种研究表明,在 VQA 任务之前引入一个字幕管道可以提高性能。我们在涉及几何、代数和计数的任务中整合了这个管道。我们发现字幕结果不可推广,特别是对于主要在 VQA 任务上进行训练的大型 VLMs,它们在与数学相关的挑战中表现出随机性能。然而,我们提出了一个有希望的替代方案:基于任务的提示,用特定于任务的指导来丰富提示。这种方法显示出希望,并且证明比直接字幕方法更有效地解决数学密集型问题。