LLM2D

摘要

大型语言模型 (LLM) 的出现为人工智能搜索引擎（例如 SearchGPT）铺平了道路，展示了人机交互的新范式。然而，目前大多数人工智能搜索引擎仅限于纯文本环境，忽略了多模态用户查询以及网站信息中文本和图像交织的特性。最近，大型多模态模型 (LMM) 取得了令人瞩目的进展。然而，它们能否作为人工智能搜索引擎发挥作用仍未得到充分探索，这使得 LMM 在多模态搜索中的潜力成为一个悬而未决的问题。为此，我们首先设计了一个精细的流程 MMSearch-Engine，赋予任何 LMM 多模态搜索能力。在此基础上，我们引入了 MMSearch，这是一个全面的评估基准，用于评估 LMM 的多模态搜索性能。精心策划的数据集包含 300 个手动收集的实例，涵盖 14 个子领域，并且与当前 LMM 的训练数据没有重叠，确保正确答案只能通过搜索获得。通过使用 MMSearch-Engine，对 LMM 进行评估，执行三个单独的任务（重新查询、重新排序和摘要），以及一个具有完整搜索过程的具有挑战性的端到端任务。我们对闭源和开源 LMM 进行了广泛的实验。在所有测试模型中，配备 MMSearch-Engine 的 GPT-4o 取得了最佳结果，在端到端任务中超过了商业产品 Perplexity Pro，证明了我们提出的流程的有效性。我们进一步进行了错误分析，以揭示当前 LMM 仍然难以完全掌握多模态搜索任务，并进行了消融研究，以表明扩展 AI 搜索引擎测试时计算的潜力。我们希望 MMSearch 能够提供独特的见解，以指导未来多模态人工智能搜索引擎的发展。