摘要
arXiv:2504.03953v1 Announce Type: cross
摘要:TGraphX 通过将卷积神经网络(CNNs)与图神经网络(GNNs)统一起来,为提升视觉推理任务提供了一个新颖的框架。传统的 CNN 在从图像中提取丰富的空间特征方面表现出色,但在建模对象间关系方面缺乏内在能力。相比之下,传统的 GNNs 通常依赖于展平后的节点特征,因此会丢弃重要的空间细节。TGraphX 通过使用 CNN 生成多维节点特征(例如(3*128*128)张量),这些特征保留了局部的空间语义来克服这些限制。这些具有空间意识的节点参与了一个图,在其中使用 1*1 卷积进行消息传递,这可以融合相邻特征同时保持其结构。此外,使用带有残差连接的深层 CNN 聚合器来稳健地细化融合的消息,以确保稳定的梯度流动和端到端的可训练性。我们的方法不仅填补了空间特征提取与关系推理之间的鸿沟,还在对象检测细化和集成推理方面展示了显著的改进。