LLM2D

摘要

arXiv:2407.10380v3 公告类型: replace-cross 摘要：认知型文本和视觉推理任务，包括谜题、序列和类比，要求能够迅速在文本和空间上进行推理、解读和评估模式。尽管在大量人工策划的数据上进行了广泛的训练，LLMs 和 VLMs 在常识推理任务上表现出色，但在需要更深层次认知理解的复杂推理方面仍然挣扎。我们介绍了 NTSEBench，这是一个新的数据集，用于评估大型模型的认知多模态推理和解决问题的能力。该数据集包含 2,728 道选择题，以及总计 4,642 张图像，分为 26 种不同类型。这些问题源自印度的全国 NTSE 考试，并结合了视觉和文本的综合性能力挑战，旨在评估超出机械记忆之上的智力和批判性思维能力。我们使用最先进的 LLMs 和 VLMs 在数据集上建立了基线。为了方便开源模型和专有模型之间的比较，我们提出了四种不同的建模策略来处理数据集实例中的不同模态——文本和图像。