摘要
arXiv:2409.13711v1 公告类型: 交叉 摘要: 多模态大语言模型和网络代理的兴起,呼吁创建具有挑战性的基准来评估神经架构。与现有专注于多步骤网络导航的基准不同,我们提出了WebQuest,这是一个多页面问答数据集,要求在基于真实世界使用的网络交互序列中同时进行检索和推理。WebQuest包括三种问题类别:单屏推理、多屏推理和基于导航轨迹的问题。我们在数据集上评估了一些领先的多模态模型,如GPT-4V、Gemini Flash和Claude 3,揭示了单屏和多屏推理之间存在显著差距。最后,我们研究了如思维链提示等推理时间技术,以提高模型在多屏推理上的能力。