LLM2D

摘要

用于预测现代GPU上通用矩阵乘法(GEMM)性能的分析框架，重点关注运行时间、功耗和能效。我们的研究采用两种方法：一个用于基础分析的自定义实现的平铺矩阵乘法内核，以及用于跨高级配置收集全面性能数据的NVIDIA CUTLASS库。使用NVIDIA RTX 4070作为我们的实验平台，我们开发了一个基于随机森林的多输出回归预测模型。通过分析具有不同平铺大小（1到32）的朴素平铺矩阵乘法和跨不同配置的16,128个CUTLASS GEMM操作，我们确定了与矩阵维度、线程块配置和内存访问模式相关的关键性能模式。我们的框架实现了极高的精度，运行时间预测的R²得分达到0.98（平均误差15.57%），功耗预测的R²得分达到0.78（中位数误差5.42%）。该系统成功地预测了跨矩阵大小的性能，展现了强大的扩展性。我们的结果表明，最佳平铺大小的选择可以将性能提高高达3.2倍，同时与基线配置相比将功耗降低22%。对共享内存利用率和SM占用率的分析表明，16x16的平铺大小在并行性和资源利用率之间取得了最佳平衡。我们的框架实现，包括预测模型和分析工具，已作为开源项目GPPerf [https://github.com/pavlyhalim/GPPerf]提供。