LLM2D

GraNNite：在资源受限的神经处理单元上实现图神经网络的高性能执行

GraNNite: Enabling High-Performance Execution of Graph Neural Networks on Resource-Constrained Neural Processing Units

作者: Arghadip Das, Shamik Kundu, Arnab Raha, Soumendu Ghosh, Deepak Mathaikutty, Vijay Raghunathan

发布日期: 2/12/2025

arXiv ID: oai:arXiv.org:2502.06921v1

摘要

arXiv:2502.06921v1 宣告类型: cross 摘要：图神经网络（GNNs）对于从结构化数据中学习至关重要，能够支持网络分析、推荐系统和语音分析等应用。在客户端PC和笔记本电脑等边缘设备上部署它们可以增强实时处理能力、隐私保护和减少对云的依赖。GNNs有助于大型语言模型（LLMs）的检索增强生成（RAG），并支持事件驱动的视觉任务。然而，不规则的内存访问、稀疏性和动态结构会在资源受限设备上导致高延迟和高能耗。尽管现代边缘处理器集成了CPU、GPU和NPUs，但用于数据并行任务设计的NPUs在处理不规则的GNN计算时表现不佳。我们提出了GraNNite，这是第一个针对商用现货（COTS）最先进深度神经网络（DNN）加速器优化GNN执行的硬件感知框架，通过一个结构化的三步方法：（1）使NPUs执行，（2）优化性能，（3）为了效率的提升牺牲一定的准确性。第一步使用GraphSplit进行工作负载分配和StaGr进行静态聚合，而GrAd和NodePad处理动态图。第二步通过EffOp提高对控制密集型任务的性能，并使用GraSp进行稀疏性利用。图卷积优化PreG、SymG和CacheG减少了冗余和内存传输。第三步平衡质量和效率，其中QuantGr应用INT8量化，而GrAx1、GrAx2和GrAx3加速注意机制、广播加法和SAGE-max聚合。在Intel Core Ultra AI PC上，GraNNite相对于默认的NPU映射实现了2.6到7.6倍的加速，相对于CPU和GPU实现了8.6倍的能效提升，分别在GNN模型上实现了10.8倍和6.7倍的性能提升，相比于CPU和GPU。

查看原文下载 PDF