LLM2D

摘要

arXiv:2505.03780v1 平台类型: 横跨摘要：随着大语言模型（LLM）变得越来越复杂，实现最先进的性能需要在算法、软件和硬件之间进行紧密的协同设计。今天对单一主导平台的依赖性限制了迁移性，造成了供应商锁定，并提高了新AI硬件的壁垒。在本文中，我们提出将即时编译（JIT）与内核参数自调优相结合，以在无需代码更改的情况下实现可迁移、最先进的性能LLM执行。我们以广泛使用的性能关键内核——闪存注意机制为例，展示了这种方法探索了高达15倍更多的内核参数配置，在多个维度上产生了显著更多的多样代码，并且在某些情况下甚至比优化的供应商实现高出230%的性能，同时将内核代码量减少了70倍，消除了手动代码优化的需求。我们的结果突显了自调优作为解锁面向GPU供应商的模型迁移性的有前途的方法。