LLM2D

摘要

arXiv:2410.19100v2 宣告类型: replace-cross 摘要：视频常用于以不同于仅靠文字和静态图像所能提供的方式学习或提取完成任务所需的必要信息。然而，许多现有的代理基准忽略了长上下文视频理解，相反，它们专注于文本或静态图像输入。为了弥合这一差距，我们引入了VideoWebArena（VideoWA），一种评估长上下文多模态代理视频理解能力的基准。VideoWA 包括基于手工制作的视频教程的 2,021 个网络代理任务，总时长接近四小时。对于我们的基准，我们定义了一种长上下文视频基础的代理任务分类法，主要关注两个领域：技能保留和事实保留。虽然技能保留任务评估代理能否高效地使用给定的人类演示完成任务，事实保留任务评估代理能否从视频中检索出与指令相关的信息来完成任务。我们发现，最佳模型在事实保留任务上的成功率仅为 13.3%，在事实保留问答对上的成功率仅为 45.8%，分别低于人类表现的 73.9% 和 79.3%。在技能保留任务中，长上下文模型在有教程情况下表现更差，WebArena 任务中的表现下降了 5%，VisualWebArena 任务中的下降了 10.3%。我们的工作强调了改进长上下文多模态模型的代理能力的必要性，并为未来的开发提供了具有长上下文视频代理的测试平台。