LLM2D
LEGO:可学习图算子扩展用于多模态特征融合
LEGO: Learnable Expansion of Graph Operators for Multi-Modal Feature Fusion
作者: Dexuan Ding, Lei Wang, Liyun Zhu, Tom Gedeon, Piotr Koniusz
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01506v1

摘要

在计算机视觉任务中,特征通常来自不同的表示形式、领域和模态,例如文本、图像和视频。有效地融合这些特征对于获得稳健的性能至关重要,尤其是在存在强大的预训练模型(如视觉语言模型)的情况下。然而,常见的融合方法,例如串联、逐元素操作和非线性技术,往往无法捕捉结构关系、深度特征交互,并且会遭受效率低下或跨域特征错位的问题。在本文中,我们从高维特征空间转移到低维、可解释的图空间,通过构建编码不同级别特征关系的相似性图,例如剪辑、帧、补丁、词元等。为了捕捉更深层的交互作用,我们使用图幂扩展,并引入可学习的图融合算子来组合这些图幂,从而实现更有效的融合。我们的方法以关系为中心,在同质空间中操作,并且在数学上是合理的,类似于通过多线性多项式进行逐元素相似度得分聚合。我们在视频异常检测中展示了基于图的融合方法的有效性,显示了在多表示、多模态和多领域特征融合任务中强大的性能。