LLM2D

摘要

arXiv:2502.13873v1 交叉类型: cross 摘要: 深度神经网络越来越多地利用稀疏性来减少模型参数大小的放大。然而，通过稀疏性和剪枝来减少墙钟时间仍然是一个挑战，这是因为不规则的内存访问模式导致频繁的Cache缺失。本文中，我们提出了NPU向量前瞻(NPU Vector Runahead, NVR)机制，这是一种专门为NPU设计的预取机制，旨在解决稀疏DNN工作负载中的Cache缺失问题。NVR 不是通过高开销和低可移植性的方法优化内存模式，而是将前瞻执行适应NPU的独特架构。NVR 提供了一种通用的微架构级解决方案，适用于稀疏DNN工作负载，无需编译器或算法支持，作为一个与NPU解耦的、推测性的、轻量级的硬件子线程运行，硬件开销在5%以下。NVR 达到了与通用处理器最新预取技术相比平均90%的Cache缺失减少，且在不需要预取的情况下，提升了NPU上稀疏工作负载的平均4倍性能。此外，我们还研究了在NPU中加入一个小容量Cache（16KB）与NVR结合的优劣。我们的评估结果显示，扩展这个较小的Cache带来的性能提升比增加相同数量的L2 Cache大小高出5倍。