LLM2D

摘要

arXiv:2410.19100v3 公告类型: 交叉替换摘要：视频经常用于以与仅靠文本和静态图像所能提供的不同的方式学习或提取完成任务所需的必要信息。然而，许多现有的代理基准忽略了长上下文视频理解，而是专注于文本或静态图像输入。为了弥合这一差距，我们引入了VideoWebArena（VideoWA），这是一个用于评估长上下文多模态代理视频理解能力的基准。VideoWA 包含基于手工制作的视频教程的 2021 个 web 代理任务，总计近四小时的内容。对于我们的基准，我们定义了一个基于长上下文视频的代理任务的分类法，重点关注两大领域：技能保留和事实保留。虽然技能保留任务评估代理是否可以使用给定的人类示范高效地完成任务，事实保留任务则评估代理是否可以从视频中检索到相关信息以完成任务。我们发现，最佳模型在事实保留任务中的成功率为 13.3%，在事实保留问答对中的成功率则为 45.8%，分别远低于人类表现的 73.9% 和 79.3%。在技能保留任务中，使用教程的长上下文模型的表现比不使用教程时更差，WebArena 任务的性能下降了 5%，VisualWebArena 任务的性能下降了 10.3%。我们的工作突显了提高长上下文多模态模型的代理能力的必要性，并为未来开发长上下文视频代理提供了试验台。