LLM2D

摘要

arXiv:2410.01506v3 宣称类型: replace-cross 摘要：在计算机视觉任务中，特征往往来自多种表示、领域（例如室内和室外）和模态（例如文本、图像和视频）。有效地融合这些特征对于稳健的表现至关重要，尤其是在拥有如视觉-语言模型等强大预训练模型的情况下。然而，常见的融合方法，如连接、元素操作和非线性技术，常难以捕捉结构关系、深层次的特征相互作用，并且在跨领域或模态的特征对齐或效率方面存在缺陷。在本文中，我们通过构建关系图将高维特征空间转换为低维的可解释图空间，从而在不同的层次上编码特征关系，例如剪辑、帧、补丁、标记等。为了捕捉更深层次的相互作用，我们使用图幂扩展，并引入可学习的图融合算子来结合这些图幂以实现更有效的融合。我们的方法以关系为中心、在同质空间中操作，并且具有数学上的原理，类似于通过多元多项式进行元素操作关系评分聚合。我们在视频异常检测上展示了基于图的融合方法的有效性，展示了其在多表示、多模态和多领域特征融合任务中的强大表现。