LLM2D

摘要

在计算机视觉任务中，特征通常来自不同的表示形式、领域和模态，例如文本、图像和视频。有效地融合这些特征对于获得稳健的性能至关重要，尤其是在存在强大的预训练模型（如视觉语言模型）的情况下。然而，常见的融合方法，例如串联、逐元素操作和非线性技术，往往无法捕捉结构关系、深度特征交互，并且会遭受效率低下或跨域特征错位的问题。在本文中，我们从高维特征空间转移到低维、可解释的图空间，通过构建编码不同级别特征关系的相似性图，例如剪辑、帧、补丁、词元等。为了捕捉更深层的交互作用，我们使用图幂扩展，并引入可学习的图融合算子来组合这些图幂，从而实现更有效的融合。我们的方法以关系为中心，在同质空间中操作，并且在数学上是合理的，类似于通过多线性多项式进行逐元素相似度得分聚合。我们在视频异常检测中展示了基于图的融合方法的有效性，显示了在多表示、多模态和多领域特征融合任务中强大的性能。