LLM2D
GraNNite:在资源受限的神经处理单元上实现图神经网络高性能执行
GraNNite: Enabling High-Performance Execution of Graph Neural Networks on Resource-Constrained Neural Processing Units
作者: Arghadip Das, Shamik Kundu, Arnab Raha, Soumendu Ghosh, Deepak Mathaikutty, Vijay Raghunathan
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.06921v2

摘要

arXiv:2502.06921v2 通知类型: replace-cross 摘要:图神经网络(GNNs)对于从结构化数据中学习至关重要,它们使网络分析、推荐系统和语音分析等应用成为可能。将它们部署在边缘设备如客户端PC和笔记本电脑上可以增强实时处理能力、隐私保护和对云计算的独立性。GNNs有助于大型语言模型(LLMs)的检索增强生成(RAG)任务,并使事件驱动的视觉任务成为可能。然而,不规则的内存访问、稀疏性和动态结构在资源受限的设备上导致高延迟和能源开销。尽管现代边缘处理器集成了CPU、GPU和NPU,但针对数据并行任务设计的NPU在处理不规则的GNN计算时存在困难。我们引入了GraNNite,这是一个首个硬件感知框架,通过结构化的三步方法优化商业现货(COTS)最先进的DNN加速器上的GNN执行:(1)启用NPU执行,(2)优化性能,(3)在质量与效率之间进行权衡。第一步使用GraphSplit进行工作负载分布和StaGr进行静态聚合,而GrAd和NodePad处理动态图。第二步通过EffOp提升控制密集型任务的性能,并使用GraSp利用稀疏性。图卷积优化PreG、SymG和CacheG减少冗余并减少内存传输。第三步在质量和效率之间进行平衡,其中QuantGr应用INT8量化,而GrAx1、GrAx2和GrAx3加速注意力、广播加法和SAGE-max聚合。在Intel Core Ultra AI PC上,GraNNite在默认NPU映射上的速度提高了2.6倍至7.6倍,在CPU和GPU上的能效提高了8.6倍,并且与CPU和GPU相比,分别实现了10.8倍和6.7倍的更高性能,覆盖所有GNN模型。