摘要
arXiv:2407.10380v3 公告类型: replace-cross
摘要:认知型文本和视觉推理任务,包括谜题、序列和类比,要求能够迅速在文本和空间上进行推理、解读和评估模式。尽管在大量人工策划的数据上进行了广泛的训练,LLMs 和 VLMs 在常识推理任务上表现出色,但在需要更深层次认知理解的复杂推理方面仍然挣扎。我们介绍了 NTSEBench,这是一个新的数据集,用于评估大型模型的认知多模态推理和解决问题的能力。该数据集包含 2,728 道选择题,以及总计 4,642 张图像,分为 26 种不同类型。这些问题源自印度的全国 NTSE 考试,并结合了视觉和文本的综合性能力挑战,旨在评估超出机械记忆之上的智力和批判性思维能力。我们使用最先进的 LLMs 和 VLMs 在数据集上建立了基线。为了方便开源模型和专有模型之间的比较,我们提出了四种不同的建模策略来处理数据集实例中的不同模态——文本和图像。