LLM2D
基于非线性哈希的SpMV在GPU上的优化方法
A Nonlinear Hash-based Optimization Method for SpMV on GPUs
作者: Chen Yan, Boyu Diao, Hangda Liu, Zhulin An, Yongjun Xu
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08860v1

摘要

arXiv:2504.08860v1 行类别: 交叉 摘要: 稀疏矩阵-向量乘法(SpMV)是科学计算和人工智能中广泛应用的基本操作。然而,稀疏矩阵的大型规模和稀疏性往往使其成为性能瓶颈。在本文中,我们强调了基于哈希技术在优化稀疏矩阵重排方面的有效性,引入了基于哈希的分区(HBP)格式,这是一种轻量级的SpMV方法。HBP保留了2D分区方法的性能优势,同时利用哈希转换的能力将相似元素分组,从而加速稀疏矩阵重排的预处理阶段。此外,我们通过一种竞争性的方法实现了矩阵分区的并行负载均衡。我们在Nvidia Jetson AGX Orin和Nvidia RTX 4090上进行的实验显示,在预处理步骤中,与排序方法相比,我们的方法提供了平均3.53倍的加速,与Regu2D中使用的动态规划方法相比提供了平均3.67倍的加速。此外,在SpMV中,我们的方法在Orin上实现了最大3.32倍的加速,在RTX4090上实现了最大3.01倍的加速,这都是针对来自University of Florida稀疏矩阵集合的稀疏矩阵相对于CSR格式的加速。