LLM2D

摘要

arXiv:2504.12256v1 宣布类型：交叉摘要：在过去几年中，人工智能（AI）的进展已经展示了AI如何解决许多感知和生成任务的能力，例如图像分类和文本写作，然而推理仍然是一个挑战。本文引入了FLIP数据集，这是一个基于Idena区块链上的人工验证任务来评估AI推理能力的基准。FLIP挑战要求用户选择四个图像的两种排序中逻辑连贯的一种。通过强调顺序推理、视觉故事讲述和常识，FLIP为多模态AI系统提供了独特的测试平台。我们的实验评估了最新的模型，利用了视觉-语言模型（VLMs）和大规模语言模型（LLMs）。结果表明，即使是最先进的开源和封闭源模型，在零样本设置下分别达到75.5%和77.9%的最大准确率，而人类的表现为95.3%。图像描述模型通过提供图像的文本描述来辅助推理模型，从而比直接使用原始图像获得了更好的结果，Gemini 1.5 Pro的准确率为69.6%比75.2%。将15个模型的预测进行集成，准确率提高到85.2%。这些发现突显了现有推理模型的局限性，并强调了像FLIP这样稳健的多模态基准的必要性。完整的代码库和数据集将可在 https://github.com/aplesner/FLIP-Reasoning-Challenge 获取。