LLM2D
网页问答:基于网页序列的多模态问答基准测试
WebQuest: A Benchmark for Multimodal QA on Web Page Sequences
作者: Maria Wang, Srinivas Sunkara, Gilles Baechler, Jason Lin, Yun Zhu, Fedir Zubach, Lei Shu, Jindong Chen
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.13711v2

摘要

强大的多模态大型语言模型 (LLMs) 的兴起,增强了构建网络代理的可行性,这些代理可以以越来越高的自主程度,帮助用户在各种人机界面上检索信息和完成任务。因此,有必要构建具有挑战性的基准,涵盖反映现实世界使用的各种用例。在这项工作中,我们提出了 WebQuest,这是一个多页面问答数据集,需要跨多个相关网页进行推理。与专注于多步骤网页导航和任务完成的现有 UI 基准测试不同,我们的数据集评估了从多个网页中提取信息、多模态检索和信息组合。WebQuest 包含三个问题类别:单屏问答、多屏问答和基于导航轨迹的问答。我们评估了领先的专有多模态模型,例如 GPT-4V、Gemini Flash、Claude 3 以及开源模型,例如 InstructBLIP、PaliGemma,在我们的数据集上,揭示了单屏推理和多屏推理之间的显著差距。最后,我们研究了像思维链提示这样的推理时间技术,以提高模型在多屏推理上的能力。