摘要
从多个摄像头和视角生成详细描述具有挑战性,因为视觉数据的性质复杂且不一致。本文介绍了PerspectiveNet,这是一种轻量级且高效的模型,用于跨多个摄像头视图生成长描述。我们的方法利用视觉编码器、一个紧凑的连接模块(将视觉特征转换为固定大小的张量)以及大型语言模型(LLM),以利用LLM强大的自然语言生成能力。连接模块的设计具有三个主要目标:将视觉特征映射到LLM嵌入中,强调描述生成所需的关键信息,以及生成固定大小的特征矩阵。此外,我们通过一个辅助任务(正确的帧序列检测)来增强我们的解决方案,使模型能够搜索正确的帧序列以生成描述。最后,我们将连接模块、辅助任务、LLM和视觉特征提取模型集成到单个架构中,该架构针对交通安全描述和分析任务进行训练。此任务需要根据多个摄像头和视角生成事件的详细、细粒度的描述。生成的模型轻量级,确保高效的训练和推理,同时保持高度有效。