LLM2D

摘要

arXiv:2505.00254v1 宣告类型: cross 摘要：AI驱动的视频分析在各个领域中变得越来越关键。然而，现有的系统通常仅限于特定的预定义任务，限制了它们在开放式分析场景中的适应性。最近，作为变革性技术出现的视频-语言模型（VLMs）为实现开放式视频理解、推理和分析提供了巨大的潜力。然而，它们有限的上下文窗口在处理现实世界应用程序中普遍存在的超长视频内容时提出了挑战。为了解决这一问题，我们介绍了一个名为AVA的VLM驱动系统，旨在实现开放式高级视频分析。AVA包含两项关键创新：（1）用于高效索引长或连续视频流的事件知识图（EKGs）的近实时构建，以及（2）一种利用EKGs处理复杂和多样化查询的主动检索-生成机制。在公共基准测试LVBench和VideoMME-Long上的全面评估显示，AVA达到了最先进的性能，分别取得了62.3%和64.1%的准确率，显著优于现有的VLM和视频检索增强生成（RAG）系统。此外，为了评估超长和开放世界的视频分析场景，我们引入了一个新的基准测试AVA-100。该基准测试包含8个视频，每个视频均超过10小时，以及120个手动标注的多样化和复杂问题-答案对。在AVA-100上，AVA取得了顶级性能，准确率为75.8%。