LLM2D
MMSearch:大型模型作为多模态搜索引擎的潜力基准测试
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines
作者: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Chaoyou Fu, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2409.12959v2

摘要

大型语言模型 (LLM) 的出现为人工智能搜索引擎(例如 SearchGPT)铺平了道路,展示了人机交互的新范式。然而,目前大多数人工智能搜索引擎仅限于纯文本环境,忽略了多模态用户查询以及网站信息中文本和图像交织的特性。最近,大型多模态模型 (LMM) 取得了令人瞩目的进展。然而,它们能否作为人工智能搜索引擎发挥作用仍未得到充分探索,这使得 LMM 在多模态搜索中的潜力成为一个悬而未决的问题。为此,我们首先设计了一个精细的流程 MMSearch-Engine,赋予任何 LMM 多模态搜索能力。在此基础上,我们引入了 MMSearch,这是一个全面的评估基准,用于评估 LMM 的多模态搜索性能。精心策划的数据集包含 300 个手动收集的实例,涵盖 14 个子领域,并且与当前 LMM 的训练数据没有重叠,确保正确答案只能通过搜索获得。通过使用 MMSearch-Engine,对 LMM 进行评估,执行三个单独的任务(重新查询、重新排序和摘要),以及一个具有完整搜索过程的具有挑战性的端到端任务。我们对闭源和开源 LMM 进行了广泛的实验。在所有测试模型中,配备 MMSearch-Engine 的 GPT-4o 取得了最佳结果,在端到端任务中超过了商业产品 Perplexity Pro,证明了我们提出的流程的有效性。我们进一步进行了错误分析,以揭示当前 LMM 仍然难以完全掌握多模态搜索任务,并进行了消融研究,以表明扩展 AI 搜索引擎测试时计算的潜力。我们希望 MMSearch 能够提供独特的见解,以指导未来多模态人工智能搜索引擎的发展。