摘要
arXiv:2502.13873v1 交叉类型: cross
摘要: 深度神经网络越来越多地利用稀疏性来减少模型参数大小的放大。然而,通过稀疏性和剪枝来减少墙钟时间仍然是一个挑战,这是因为不规则的内存访问模式导致频繁的Cache缺失。本文中,我们提出了NPU向量前瞻(NPU Vector Runahead, NVR)机制,这是一种专门为NPU设计的预取机制,旨在解决稀疏DNN工作负载中的Cache缺失问题。NVR 不是通过高开销和低可移植性的方法优化内存模式,而是将前瞻执行适应NPU的独特架构。NVR 提供了一种通用的微架构级解决方案,适用于稀疏DNN工作负载,无需编译器或算法支持,作为一个与NPU解耦的、推测性的、轻量级的硬件子线程运行,硬件开销在5%以下。NVR 达到了与通用处理器最新预取技术相比平均90%的Cache缺失减少,且在不需要预取的情况下,提升了NPU上稀疏工作负载的平均4倍性能。此外,我们还研究了在NPU中加入一个小容量Cache(16KB)与NVR结合的优劣。我们的评估结果显示,扩展这个较小的Cache带来的性能提升比增加相同数量的L2 Cache大小高出5倍。