LLM2D

摘要

arXiv:2410.19100v2 宣告类型: replace-cross 摘要：视频通常用于以不同于仅通过文本和静态图片所能提供的方式学习或提取完成任务所需的信息。然而，许多现有的代理基准忽略了长期上下文视频理解，相反，它们更多关注文本或静态图像输入。为了弥合这一差距，我们介绍了VideoWebArena（VideoWA）基准，用于评估长期上下文多模态代理在视频理解方面的能力。VideoWA 包含基于手工制作的视频教程的 2021 个网络代理任务，总时长接近四小时。对于我们的基准，我们定义了一种长期上下文基于视频的代理任务的分类学，分为两个主要领域：技能保留和事实保留。虽然技能保留任务评估代理能否使用给定的人类示范高效完成任务，但事实保留任务评估代理能否从视频中检索到相关指令的信息以完成任务。我们发现，最佳模型在事实保留任务上的成功率为 13.3%，在事实保留问答对上的成功率为 45.8%，分别低于人类表现的 73.9% 和 79.3%。在技能保留任务上，带有教程的长上下文模型的表现不如没有教程时，WebArena 任务表现出 5% 的性能下降，而 VisualWebArena 任务则表现出 10.3% 的下降。我们的工作强调了需要改进长期上下文多模态模型的代理能力，并为未来开发提供了一个基于长期上下文视频代理的测试平台。