LLM2D

摘要

强大的多模态大型语言模型 (LLMs) 的兴起，增强了构建网络代理的可行性，这些代理可以以越来越高的自主程度，帮助用户在各种人机界面上检索信息和完成任务。因此，有必要构建具有挑战性的基准，涵盖反映现实世界使用的各种用例。在这项工作中，我们提出了 WebQuest，这是一个多页面问答数据集，需要跨多个相关网页进行推理。与专注于多步骤网页导航和任务完成的现有 UI 基准测试不同，我们的数据集评估了从多个网页中提取信息、多模态检索和信息组合。WebQuest 包含三个问题类别：单屏问答、多屏问答和基于导航轨迹的问答。我们评估了领先的专有多模态模型，例如 GPT-4V、Gemini Flash、Claude 3 以及开源模型，例如 InstructBLIP、PaliGemma，在我们的数据集上，揭示了单屏推理和多屏推理之间的显著差距。最后，我们研究了像思维链提示这样的推理时间技术，以提高模型在多屏推理上的能力。