LLM2D

摘要

arXiv:2502.14827v1 声明类型：cross 摘要：视觉问答（VQA）已经成为计算机视觉与自然语言处理交叉领域的关键任务，要求模型能够理解并根据自然语言问题对视觉内容进行推理。分析VQA数据集对于开发能够处理多模态推理复杂性的稳健模型至关重要。已经开发出多种方法来检查这些数据集，每种方法都提供了关于问题多样性、答案分布和视觉-文本相关性的独特视角。尽管取得了显著进展，但现有的VQA模型仍然面临数据集偏差、模型复杂度有限、常识推理缺口、僵硬的评估方法以及在现实世界场景中的泛化能力等方面的挑战。本文对五种先进的VQA模型进行了全面的比较研究：ABC-CNN、KICNLE、遮蔽视觉和语言建模、BLIP-2 和 OFA，每种模型都采用了不同的方法来应对这些挑战。