LLM2D
GPU 性能portability 需要自动调优
GPU Performance Portability needs Autotuning
作者: Burkhard Ringlein, Thomas Parnell, Radu Stoica
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.03780v1

摘要

arXiv:2505.03780v1 平台类型: 横跨 摘要:随着大语言模型(LLM)变得越来越复杂,实现最先进的性能需要在算法、软件和硬件之间进行紧密的协同设计。今天对单一主导平台的依赖性限制了迁移性,造成了供应商锁定,并提高了新AI硬件的壁垒。在本文中,我们提出将即时编译(JIT)与内核参数自调优相结合,以在无需代码更改的情况下实现可迁移、最先进的性能LLM执行。我们以广泛使用的性能关键内核——闪存注意机制为例,展示了这种方法探索了高达15倍更多的内核参数配置,在多个维度上产生了显著更多的多样代码,并且在某些情况下甚至比优化的供应商实现高出230%的性能,同时将内核代码量减少了70倍,消除了手动代码优化的需求。我们的结果突显了自调优作为解锁面向GPU供应商的模型迁移性的有前途的方法。