LLM2D
GPU 性能移植需要自动调优
GPU Performance Portability needs Autotuning
作者: Burkhard Ringlein, Thomas Parnell, Radu Stoica
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.03780v2

摘要

arXiv:2505.03780v2 宣传类型: 替换-交叉 摘要:随着大型语言模型(LLM)变得越来越复杂,实现最先进的性能需要在算法、软件和硬件之间紧密协同设计。当前对单一主导平台的依赖限制了便携性,导致供应商锁定,并提高了新的AI硬件的门槛。在本文中,我们提出了结合即时编译(JIT)与核参数自动调优的方法,以在无需修改代码的情况下实现具有先进性能的便携式LLM推理。我们聚焦于广泛使用的性能关键核——闪光注意机制,证明了这种方法在多个维度上产生了显著更多样化的代码,并且在某些情况下甚至比经过优化的硬件供应商实现高出230%的性能,同时将核代码大小减少了70倍,且消除了手工代码优化的需求。我们的结果突显了自动调优作为解锁跨GPU供应商模型便携性的一种有希望的途径。