LLM2D
赋予主动型视频分析系统以视频语言模型能力
Empowering Agentic Video Analytics Systems with Video Language Models
作者: Yuxuan Yan, Shiqi Jiang, Ting Cao, Yifan Yang, Qianqian Yang, Yuanchao Shu, Yuqing Yang, Lili Qiu
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.00254v2

摘要

arXiv:2505.00254v2 通知类型: replace-cross 摘要:AI驱动的视频分析在众多领域中变得越来越关键。然而,现有的系统往往局限于特定的预定义任务,限制了它们在开放式分析场景中的适应性。最近,视频语言模型(VLMs)作为一种变革性技术的出现为实现开放式视频理解、推理和分析提供了巨大潜力。然而,它们有限的上下文窗口在处理真实世界应用中普遍存在的超长视频内容时提出了挑战。为了解决这个问题,我们引入了AVAS,这是一个基于VLM的系统,旨在实现开放式的高级视频分析。AVAS包含两项关键创新:(1) 近实时构建事件知识图谱(EKGs),用于高效索引长或连续视频流;(2) 一种代理检索生成机制,利用EKGs处理复杂多样的查询。在公开基准LVBench和VideoMME-Long上的全面评估表明,AVAS达到了最先进的性能,分别达到了62.3%和64.1%的准确性,显著超越了现有的VLM和视频检索增强生成(RAG)系统。此外,为了评估超长和开放世界视频场景中的视频分析,我们引入了一个新的基准AVAS-100。该基准包含8个超过10小时的视频,以及120个手动注释、多样和复杂的问答对。在AVAS-100上,AVAS取得了顶级性能,准确率为75.8%。