LLM2D
LEGO:可学习的图操作扩展用于多模态特征融合
LEGO: Learnable Expansion of Graph Operators for Multi-Modal Feature Fusion
作者: Dexuan Ding, Lei Wang, Liyun Zhu, Tom Gedeon, Piotr Koniusz
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01506v2

摘要

在计算机视觉任务中,特征通常来自不同的表示、领域和模态,例如文本、图像和视频。有效地融合这些特征对于稳健的性能至关重要,尤其是在拥有强大的预训练模型(如视觉语言模型)的情况下。然而,常见的融合方法,如连接、逐元素操作和非线性技术,往往无法捕捉结构关系、深度特征交互,并存在效率低下或跨领域特征错位的问题。在本文中,我们从高维特征空间转向低维、可解释的图空间,通过构建相似性图来编码不同层次的特征关系,例如剪辑、帧、块、标记等。为了捕捉更深层的交互,我们使用图幂展开并引入可学习的图融合算子来组合这些图幂,以实现更有效的融合。我们的方法以关系为中心,在同质空间中运行,并具有数学原理,类似于通过多线性多项式进行逐元素相似度得分聚合。我们展示了基于图的融合方法在视频异常检测中的有效性,表明了该方法在多表示、多模态和多领域特征融合任务中的强大性能。