摘要
arXiv:2410.01506v3 宣称类型: replace-cross
摘要:在计算机视觉任务中,特征往往来自多种表示、领域(例如室内和室外)和模态(例如文本、图像和视频)。有效地融合这些特征对于稳健的表现至关重要,尤其是在拥有如视觉-语言模型等强大预训练模型的情况下。然而,常见的融合方法,如连接、元素操作和非线性技术,常难以捕捉结构关系、深层次的特征相互作用,并且在跨领域或模态的特征对齐或效率方面存在缺陷。在本文中,我们通过构建关系图将高维特征空间转换为低维的可解释图空间,从而在不同的层次上编码特征关系,例如剪辑、帧、补丁、标记等。为了捕捉更深层次的相互作用,我们使用图幂扩展,并引入可学习的图融合算子来结合这些图幂以实现更有效的融合。我们的方法以关系为中心、在同质空间中操作,并且具有数学上的原理,类似于通过多元多项式进行元素操作关系评分聚合。我们在视频异常检测上展示了基于图的融合方法的有效性,展示了其在多表示、多模态和多领域特征融合任务中的强大表现。