LLM2D

摘要

从多个摄像头和视角生成详细描述具有挑战性，因为视觉数据的性质复杂且不一致。本文介绍了PerspectiveNet，这是一种轻量级且高效的模型，用于跨多个摄像头视图生成长描述。我们的方法利用视觉编码器、一个紧凑的连接模块（将视觉特征转换为固定大小的张量）以及大型语言模型（LLM），以利用LLM强大的自然语言生成能力。连接模块的设计具有三个主要目标：将视觉特征映射到LLM嵌入中，强调描述生成所需的关键信息，以及生成固定大小的特征矩阵。此外，我们通过一个辅助任务（正确的帧序列检测）来增强我们的解决方案，使模型能够搜索正确的帧序列以生成描述。最后，我们将连接模块、辅助任务、LLM和视觉特征提取模型集成到单个架构中，该架构针对交通安全描述和分析任务进行训练。此任务需要根据多个摄像头和视角生成事件的详细、细粒度的描述。生成的模型轻量级，确保高效的训练和推理，同时保持高度有效。