LLM2D

摘要

arXiv:2504.04241v1 跨平台类型：交叉摘要：基于ARM的架构，尤其是引入可扩展向量扩展（SVE）的架构，为高性能计算（HPC）和机器学习（ML）工作负载带来了变革性的机会。统一加速基金会（UXL）的一键式数据 analytics 库（oneDAL）是广泛采用的加速 ML 和数据 analytics 工作流程的库，但其依赖于英特尔的专有数学内核库（MKL）传统上限制了其与 x86 平台的兼容性。本文详细介绍了将 oneDAL 转移到具有 SVE 支持的 ARM 架构上，并使用 OpenBLAS 作为替代后端以克服架构和性能挑战的过程。除移植外，该研究还引入了新的 ARM 特异性优化，包括定制的稀疏矩阵例行程序、向量化的统计函数以及 SVE 优化的支持向量机（SVM）算法。这些 SVM 增强功能利用了 SVE 的可变向量长度和基于谓词的执行，实现了 Boser 方法 22% 的性能提升和 Thunder 方法 5% 的性能提升。在启用 SVE 的 AWS Graviton3 实例上的基准测试中，与 ARM 平台上原始的 scikit-learn 实现相比，机器学习训练和推理任务获得了多达 200 倍的加速。此外，在与 AWS Graviton3 ARM 实例成本接近两倍的 IceLake x86 系统上，ARM 优化的一键式数据 analytic 库与 x86 一键式数据 analytic 库（MKL 后端）在性能上达到了同等水平，并在某些情况下超过了后者。这些发现突显了 ARM 作为数据密集型 ML 应用的高性能、能源高效平台的潜力。通过扩展跨架构兼容性和对开源生态系统的贡献，这项工作巩固了 ARM 在 HPC 和 ML 领域的竞争力，为数据密集型计算的未来发展铺平了道路。