摘要
我们探索了视觉语言模型 (VLMs) 中的多步推理。该问题具有挑战性,因为包含多个步骤的视觉和语言处理推理数据几乎不可用。为了克服这一挑战,我们首先引入了一种从少到多的视觉推理范式,该范式交织了将问题分解为子问题和调用外部工具来解决子问题的步骤。基于该范式,我们进一步提出了一种新颖的数据合成方法,该方法可以自下而上地自动为图像创建问题和多步推理路径。我们的方法将复杂合成任务划分为几个简单的子任务,并且(几乎完全)依赖于开源模型来完成这些子任务。因此,整个合成过程是可重复且成本效益高的,并且合成数据的质量得到保证。利用该方法,我们构建了 50,000 个视觉推理示例。然后,我们通过监督微调开发了一个视觉推理器,该推理器能够以即插即用方式普遍增强各种现有 VLMs 的推理能力。大量实验表明,视觉推理器可以在四个 VQA 基准上持续且显着地改进四个 VLMs。我们的代码和数据集可在 https://github.com/steven-ccq/VisualReasoner 获取。