LLM2D
oneDAL针对ARM可扩展向量扩展的优化:最大化高性能数据科学的效率
oneDAL Optimization for ARM Scalable Vector Extension: Maximizing Efficiency for High-Performance Data Science
作者: Chandan Sharma, Rakshith GB, Ajay Kumar Patel, Dhanus M Lal, Darshan Patel, Ragesh Hajela, Masahiro Doteguchi, Priyanka Sharma
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04241v1

摘要

arXiv:2504.04241v1 跨平台类型:交叉 摘要:基于ARM的架构,尤其是引入可扩展向量扩展(SVE)的架构,为高性能计算(HPC)和机器学习(ML)工作负载带来了变革性的机会。统一加速基金会(UXL)的一键式数据 analytics 库(oneDAL)是广泛采用的加速 ML 和数据 analytics 工作流程的库,但其依赖于英特尔的专有数学内核库(MKL)传统上限制了其与 x86 平台的兼容性。本文详细介绍了将 oneDAL 转移到具有 SVE 支持的 ARM 架构上,并使用 OpenBLAS 作为替代后端以克服架构和性能挑战的过程。除移植外,该研究还引入了新的 ARM 特异性优化,包括定制的稀疏矩阵例行程序、向量化的统计函数以及 SVE 优化的支持向量机(SVM)算法。这些 SVM 增强功能利用了 SVE 的可变向量长度和基于谓词的执行,实现了 Boser 方法 22% 的性能提升和 Thunder 方法 5% 的性能提升。在启用 SVE 的 AWS Graviton3 实例上的基准测试中,与 ARM 平台上原始的 scikit-learn 实现相比,机器学习训练和推理任务获得了多达 200 倍的加速。此外,在与 AWS Graviton3 ARM 实例成本接近两倍的 IceLake x86 系统上,ARM 优化的一键式数据 analytic 库与 x86 一键式数据 analytic 库(MKL 后端)在性能上达到了同等水平,并在某些情况下超过了后者。这些发现突显了 ARM 作为数据密集型 ML 应用的高性能、能源高效平台的潜力。通过扩展跨架构兼容性和对开源生态系统的贡献,这项工作巩固了 ARM 在 HPC 和 ML 领域的竞争力,为数据密集型计算的未来发展铺平了道路。