LLM2D
RAVEN:从大规模视频集合中多模态实体发现的代理框架
RAVEN: An Agentic Framework for Multimodal Entity Discovery from Large-Scale Video Collections
作者: Kevin Dela Rosa
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06272v1

摘要

arXiv:2504.06272v1 Announce Type: cross 摘要:我们提出了一种名为RAVEN的适应性AI代理框架,该框架旨在在大规模视频集合中进行多模态实体发现和检索。RAVEN自主地综合视觉、音频和文本模态的信息,以生成面向下游任务的结构化和可操作的表示。关键贡献包括(1)一个类别理解步骤,用于推断视频主题和通用实体,(2)一种动态定义领域特定实体和属性的模式生成机制,以及(3)一个丰富的实体提取过程,利用语义检索和模式引导提示。RAVEN设计为模型无关,允许根据具体应用需求集成不同的视觉语言模型(VLMs)和大型语言模型(LLMs)。这种灵活性支持广泛的个性化搜索、内容发现和可扩展信息检索应用,能够在大规模数据集中实现实际应用。