LLM2D

摘要

近年来，图神经网络 (GNN) 在各种现实世界的挑战中展现出了强大的适应性，例如视觉 GNN (ViG) 在多个计算机视觉任务中取得了最先进的性能。然而，它们的实际适用性受到构建图的计算复杂度的阻碍，该复杂度与图像大小呈二次方增长。在本文中，我们介绍了一种新颖的窗口化视觉图神经网络 (WiGNet) 模型，用于高效的图像处理。WiGNet 探索了与先前工作不同的策略，将图像划分为窗口，并在每个窗口内构建一个图。因此，我们的模型使用图卷积而不是典型的二维卷积或自注意力机制。WiGNet 有效地管理了大型图像尺寸的计算和内存复杂度。我们在 ImageNet-1k 基准数据集上评估了我们的方法，并使用 CelebA-HQ 数据集作为具有更高分辨率图像的下游任务测试了 WiGNet 的适应性。在这两种情况下，我们的方法都取得了与之前的视觉 GNN 相媲美的结果，同时将内存和计算复杂度控制在一定范围内。WiGNet 为在现实世界应用中部署视觉 GNN 提供了一种有希望的解决方案。我们在 https://github.com/EIDOSLAB/WiGNet 上公开了代码。