摘要
arXiv:2505.03780v2 宣传类型: 替换-交叉
摘要:随着大型语言模型(LLM)变得越来越复杂,实现最先进的性能需要在算法、软件和硬件之间紧密协同设计。当前对单一主导平台的依赖限制了便携性,导致供应商锁定,并提高了新的AI硬件的门槛。在本文中,我们提出了结合即时编译(JIT)与核参数自动调优的方法,以在无需修改代码的情况下实现具有先进性能的便携式LLM推理。我们聚焦于广泛使用的性能关键核——闪光注意机制,证明了这种方法在多个维度上产生了显著更多样化的代码,并且在某些情况下甚至比经过优化的硬件供应商实现高出230%的性能,同时将核代码大小减少了70倍,且消除了手工代码优化的需求。我们的结果突显了自动调优作为解锁跨GPU供应商模型便携性的一种有希望的途径。