LLM2D

摘要

arXiv:2502.06921v2 通知类型: replace-cross 摘要：图神经网络（GNNs）对于从结构化数据中学习至关重要，它们使网络分析、推荐系统和语音分析等应用成为可能。将它们部署在边缘设备如客户端PC和笔记本电脑上可以增强实时处理能力、隐私保护和对云计算的独立性。GNNs有助于大型语言模型（LLMs）的检索增强生成（RAG）任务，并使事件驱动的视觉任务成为可能。然而，不规则的内存访问、稀疏性和动态结构在资源受限的设备上导致高延迟和能源开销。尽管现代边缘处理器集成了CPU、GPU和NPU，但针对数据并行任务设计的NPU在处理不规则的GNN计算时存在困难。我们引入了GraNNite，这是一个首个硬件感知框架，通过结构化的三步方法优化商业现货（COTS）最先进的DNN加速器上的GNN执行：（1）启用NPU执行，（2）优化性能，（3）在质量与效率之间进行权衡。第一步使用GraphSplit进行工作负载分布和StaGr进行静态聚合，而GrAd和NodePad处理动态图。第二步通过EffOp提升控制密集型任务的性能，并使用GraSp利用稀疏性。图卷积优化PreG、SymG和CacheG减少冗余并减少内存传输。第三步在质量和效率之间进行平衡，其中QuantGr应用INT8量化，而GrAx1、GrAx2和GrAx3加速注意力、广播加法和SAGE-max聚合。在Intel Core Ultra AI PC上，GraNNite在默认NPU映射上的速度提高了2.6倍至7.6倍，在CPU和GPU上的能效提高了8.6倍，并且与CPU和GPU相比，分别实现了10.8倍和6.7倍的更高性能，覆盖所有GNN模型。