LLM2D

摘要

arXiv:2504.06272v1 Announce Type: cross 摘要：我们提出了一种名为RAVEN的适应性AI代理框架，该框架旨在在大规模视频集合中进行多模态实体发现和检索。RAVEN自主地综合视觉、音频和文本模态的信息，以生成面向下游任务的结构化和可操作的表示。关键贡献包括（1）一个类别理解步骤，用于推断视频主题和通用实体，（2）一种动态定义领域特定实体和属性的模式生成机制，以及（3）一个丰富的实体提取过程，利用语义检索和模式引导提示。RAVEN设计为模型无关，允许根据具体应用需求集成不同的视觉语言模型（VLMs）和大型语言模型（LLMs）。这种灵活性支持广泛的个性化搜索、内容发现和可扩展信息检索应用，能够在大规模数据集中实现实际应用。