LLM2D

摘要

在计算机视觉任务中，特征通常来自不同的表示、领域和模态，例如文本、图像和视频。有效地融合这些特征对于稳健的性能至关重要，尤其是在拥有强大的预训练模型（如视觉语言模型）的情况下。然而，常见的融合方法，如连接、逐元素操作和非线性技术，往往无法捕捉结构关系、深度特征交互，并存在效率低下或跨领域特征错位的问题。在本文中，我们从高维特征空间转向低维、可解释的图空间，通过构建相似性图来编码不同层次的特征关系，例如剪辑、帧、块、标记等。为了捕捉更深层的交互，我们使用图幂展开并引入可学习的图融合算子来组合这些图幂，以实现更有效的融合。我们的方法以关系为中心，在同质空间中运行，并具有数学原理，类似于通过多线性多项式进行逐元素相似度得分聚合。我们展示了基于图的融合方法在视频异常检测中的有效性，表明了该方法在多表示、多模态和多领域特征融合任务中的强大性能。