LLM2D
基于机器学习的NVIDIA Ada Lovelace GEMM性能和能耗分析
Understanding GEMM Performance and Energy on NVIDIA Ada Lovelace: A Machine Learning-Based Analytical Approach
作者: Xiaoteng (Frank), Liu (New York University), Pavly Halim (New York University)
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2411.16954v1

摘要

用于预测现代GPU上通用矩阵乘法(GEMM)性能的分析框架,重点关注运行时间、功耗和能效。我们的研究采用两种方法:一个用于基础分析的自定义实现的平铺矩阵乘法内核,以及用于跨高级配置收集全面性能数据的NVIDIA CUTLASS库。使用NVIDIA RTX 4070作为我们的实验平台,我们开发了一个基于随机森林的多输出回归预测模型。通过分析具有不同平铺大小(1到32)的朴素平铺矩阵乘法和跨不同配置的16,128个CUTLASS GEMM操作,我们确定了与矩阵维度、线程块配置和内存访问模式相关的关键性能模式。我们的框架实现了极高的精度,运行时间预测的R²得分达到0.98(平均误差15.57%),功耗预测的R²得分达到0.78(中位数误差5.42%)。该系统成功地预测了跨矩阵大小的性能,展现了强大的扩展性。我们的结果表明,最佳平铺大小的选择可以将性能提高高达3.2倍,同时与基线配置相比将功耗降低22%。对共享内存利用率和SM占用率的分析表明,16x16的平铺大小在并行性和资源利用率之间取得了最佳平衡。我们的框架实现,包括预测模型和分析工具,已作为开源项目GPPerf [https://github.com/pavlyhalim/GPPerf]提供。