LLM2D
NVR:向量前瞻以优化NPUs中的稀疏内存访问
NVR: Vector Runahead on NPUs for Sparse Memory Access
作者: Hui Wang, Zhengpeng Zhao, Jing Wang, Yushu Du, Yuan Cheng, Bing Guo, He Xiao, Chenhao Ma, Xiaomeng Han, Dean You, Jiapeng Guan, Ran Wei, Dawei Yang, Zhe Jiang
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13873v1

摘要

arXiv:2502.13873v1 交叉类型: cross 摘要: 深度神经网络越来越多地利用稀疏性来减少模型参数大小的放大。然而,通过稀疏性和剪枝来减少墙钟时间仍然是一个挑战,这是因为不规则的内存访问模式导致频繁的Cache缺失。本文中,我们提出了NPU向量前瞻(NPU Vector Runahead, NVR)机制,这是一种专门为NPU设计的预取机制,旨在解决稀疏DNN工作负载中的Cache缺失问题。NVR 不是通过高开销和低可移植性的方法优化内存模式,而是将前瞻执行适应NPU的独特架构。NVR 提供了一种通用的微架构级解决方案,适用于稀疏DNN工作负载,无需编译器或算法支持,作为一个与NPU解耦的、推测性的、轻量级的硬件子线程运行,硬件开销在5%以下。NVR 达到了与通用处理器最新预取技术相比平均90%的Cache缺失减少,且在不需要预取的情况下,提升了NPU上稀疏工作负载的平均4倍性能。此外,我们还研究了在NPU中加入一个小容量Cache(16KB)与NVR结合的优劣。我们的评估结果显示,扩展这个较小的Cache带来的性能提升比增加相同数量的L2 Cache大小高出5倍。