LLM2D

摘要

arXiv:2409.13711v1 公告类型: 交叉摘要: 多模态大语言模型和网络代理的兴起，呼吁创建具有挑战性的基准来评估神经架构。与现有专注于多步骤网络导航的基准不同，我们提出了WebQuest，这是一个多页面问答数据集，要求在基于真实世界使用的网络交互序列中同时进行检索和推理。WebQuest包括三种问题类别：单屏推理、多屏推理和基于导航轨迹的问题。我们在数据集上评估了一些领先的多模态模型，如GPT-4V、Gemini Flash和Claude 3，揭示了单屏和多屏推理之间存在显著差距。最后，我们研究了如思维链提示等推理时间技术，以提高模型在多屏推理上的能力。