摘要
arXiv:2502.06921v1 宣告类型: cross
摘要:图神经网络(GNNs)对于从结构化数据中学习至关重要,能够支持网络分析、推荐系统和语音分析等应用。在客户端PC和笔记本电脑等边缘设备上部署它们可以增强实时处理能力、隐私保护和减少对云的依赖。GNNs有助于大型语言模型(LLMs)的检索增强生成(RAG),并支持事件驱动的视觉任务。然而,不规则的内存访问、稀疏性和动态结构会在资源受限设备上导致高延迟和高能耗。尽管现代边缘处理器集成了CPU、GPU和NPUs,但用于数据并行任务设计的NPUs在处理不规则的GNN计算时表现不佳。我们提出了GraNNite,这是第一个针对商用现货(COTS)最先进深度神经网络(DNN)加速器优化GNN执行的硬件感知框架,通过一个结构化的三步方法:(1)使NPUs执行,(2)优化性能,(3)为了效率的提升牺牲一定的准确性。第一步使用GraphSplit进行工作负载分配和StaGr进行静态聚合,而GrAd和NodePad处理动态图。第二步通过EffOp提高对控制密集型任务的性能,并使用GraSp进行稀疏性利用。图卷积优化PreG、SymG和CacheG减少了冗余和内存传输。第三步平衡质量和效率,其中QuantGr应用INT8量化,而GrAx1、GrAx2和GrAx3加速注意机制、广播加法和SAGE-max聚合。在Intel Core Ultra AI PC上,GraNNite相对于默认的NPU映射实现了2.6到7.6倍的加速,相对于CPU和GPU实现了8.6倍的能效提升,分别在GNN模型上实现了10.8倍和6.7倍的性能提升,相比于CPU和GPU。