LLM2D

摘要

大型语言模型（LLMs）的出现为人工智能搜索引擎（如SearchGPT）铺平了道路，展示了人机交互的新范式。然而，大多数当前的人工智能搜索引擎仅限于纯文本环境，忽视了多模态用户查询以及网页信息中文本与图像交织的特性。最近，大型多模态模型（LMMs）取得了显著进展。然而，它们是否能作为人工智能搜索引擎仍未得到充分探索，使得LMMs在多模态搜索中的潜力成为一个开放的问题。为此，我们首先设计了一个精巧的管道，MMSearch-Engine，赋予任何LMMs多模态搜索能力。在此基础上，我们引入了MMSearch，一个全面的评估基准，用于评估LMMs的多模态搜索性能。精心策划的数据集包含300个手动收集的实例，涵盖14个子领域，与当前LMMs的训练数据无重叠，确保正确答案只能通过搜索获得。通过使用MMSearch-Engine，LMMs通过执行三个独立任务（重新查询、重新排序和总结）以及一个具有完整搜索过程的挑战性端到端任务进行评估。我们对闭源和开源的LMMs进行了广泛的实验。在所有测试的模型中，GPT-4o与MMSearch-Engine结合取得了最佳结果，在端到端任务中超越了商业产品Perplexity Pro，证明了我们提出的管道的有效性。我们进一步进行了错误分析，揭示了当前LMMs在完全掌握多模态搜索任务方面仍面临挑战，并通过消融研究指出了扩展测试时计算在人工智能搜索引擎中的潜力。我们希望MMSearch能为多模态人工智能搜索引擎的未来发展提供独特的见解。项目页面：https://mmsearch.github.io