LLM2D
NTSEBench: 视觉语言模型的认知推理基准
NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models
作者: Pranshu Pandya, Vatsal Gupta, Agney S Talwarr, Tushar Kataria, Dan Roth, Vivek Gupta
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2407.10380v3

摘要

arXiv:2407.10380v3 公告类型: replace-cross 摘要:认知型文本和视觉推理任务,包括谜题、序列和类比,要求能够迅速在文本和空间上进行推理、解读和评估模式。尽管在大量人工策划的数据上进行了广泛的训练,LLMs 和 VLMs 在常识推理任务上表现出色,但在需要更深层次认知理解的复杂推理方面仍然挣扎。我们介绍了 NTSEBench,这是一个新的数据集,用于评估大型模型的认知多模态推理和解决问题的能力。该数据集包含 2,728 道选择题,以及总计 4,642 张图像,分为 26 种不同类型。这些问题源自印度的全国 NTSE 考试,并结合了视觉和文本的综合性能力挑战,旨在评估超出机械记忆之上的智力和批判性思维能力。我们使用最先进的 LLMs 和 VLMs 在数据集上建立了基线。为了方便开源模型和专有模型之间的比较,我们提出了四种不同的建模策略来处理数据集实例中的不同模态——文本和图像。