LLM2D

摘要

arXiv:2505.03780v2 宣传类型: 替换-交叉摘要：随着大型语言模型（LLM）变得越来越复杂，实现最先进的性能需要在算法、软件和硬件之间紧密协同设计。当前对单一主导平台的依赖限制了便携性，导致供应商锁定，并提高了新的AI硬件的门槛。在本文中，我们提出了结合即时编译（JIT）与核参数自动调优的方法，以在无需修改代码的情况下实现具有先进性能的便携式LLM推理。我们聚焦于广泛使用的性能关键核——闪光注意机制，证明了这种方法在多个维度上产生了显著更多样化的代码，并且在某些情况下甚至比经过优化的硬件供应商实现高出230%的性能，同时将核代码大小减少了70倍，且消除了手工代码优化的需求。我们的结果突显了自动调优作为解锁跨GPU供应商模型便携性的一种有希望的途径。