LLM2D

摘要

arXiv:2501.04671v2 举报类型: replace-cross 摘要: 虽然在大规模语言模型中通过链式思考（CoT）提示提高了推理能力，但视觉-语言模型（VLMs）在其中的效果仍然有限，因为它们过度依赖文本线索和记忆中的知识。为了在复杂的现实世界场景中研究VLMs的视觉推理能力，我们引入了DrivingVQA，这是一个来源于驾驶理论考试的视觉问答数据集，包含3,931个带有专家撰写解释和相关推理过程实体的多项选择题。利用该数据集，我们提出了基于检索的交错视觉链式思考（RIV-CoT）方法，使VLMs能够使用这些相关实体对应的可视化切片进行推理。我们的实验结果表明，与原始的CoT提示相比，RIV-CoT将答案准确性提高了3.1%，推理准确性提高了4.6%。此外，我们展示了我们的方法可以通过利用自动生成的伪标签有效地扩展到更大的A-OKVQA推理数据集，并且在推理准确性方面优于CoT提示。