摘要
arXiv:2504.12256v1 宣布类型:交叉
摘要:在过去几年中,人工智能(AI)的进展已经展示了AI如何解决许多感知和生成任务的能力,例如图像分类和文本写作,然而推理仍然是一个挑战。本文引入了FLIP数据集,这是一个基于Idena区块链上的人工验证任务来评估AI推理能力的基准。FLIP挑战要求用户选择四个图像的两种排序中逻辑连贯的一种。通过强调顺序推理、视觉故事讲述和常识,FLIP为多模态AI系统提供了独特的测试平台。我们的实验评估了最新的模型,利用了视觉-语言模型(VLMs)和大规模语言模型(LLMs)。结果表明,即使是最先进的开源和封闭源模型,在零样本设置下分别达到75.5%和77.9%的最大准确率,而人类的表现为95.3%。图像描述模型通过提供图像的文本描述来辅助推理模型,从而比直接使用原始图像获得了更好的结果,Gemini 1.5 Pro的准确率为69.6%比75.2%。将15个模型的预测进行集成,准确率提高到85.2%。这些发现突显了现有推理模型的局限性,并强调了像FLIP这样稳健的多模态基准的必要性。完整的代码库和数据集将可在 https://github.com/aplesner/FLIP-Reasoning-Challenge 获取。