LLM2D

摘要

arXiv:2504.03953v1 Announce Type: cross 摘要：TGraphX 通过将卷积神经网络（CNNs）与图神经网络（GNNs）统一起来，为提升视觉推理任务提供了一个新颖的框架。传统的 CNN 在从图像中提取丰富的空间特征方面表现出色，但在建模对象间关系方面缺乏内在能力。相比之下，传统的 GNNs 通常依赖于展平后的节点特征，因此会丢弃重要的空间细节。TGraphX 通过使用 CNN 生成多维节点特征（例如（3*128*128）张量），这些特征保留了局部的空间语义来克服这些限制。这些具有空间意识的节点参与了一个图，在其中使用 1*1 卷积进行消息传递，这可以融合相邻特征同时保持其结构。此外，使用带有残差连接的深层 CNN 聚合器来稳健地细化融合的消息，以确保稳定的梯度流动和端到端的可训练性。我们的方法不仅填补了空间特征提取与关系推理之间的鸿沟，还在对象检测细化和集成推理方面展示了显著的改进。