LLM2D

摘要

arXiv:2504.12984v1 宣告类型: cross 摘要：为大型语言模型（LLMs）提供服务对于AI驱动的应用至关重要，但需要大量的计算资源，特别是在内存带宽和计算吞吐量方面。低精度计算已成为了提高效率并减少资源消耗的关键技术。现有的低精度内核生成方法局限于权重位宽为2的幂次，并且由于高级GPU编程抽象的限制，导致性能不佳。这些抽象限制了细粒度寄存器管理和优化的内存访问模式等关键优化，这些都是高效低精度计算所必要的。在这篇论文中，我们介绍了一种针对通用GPU（GPGPU）计算设计的虚拟机（VM），它能够支持任意位宽的低精度数据类型，同时保持GPU的编程能力。所提出的VM配备了一个线程块级别的编程模型、层次化的内存空间、新颖的代数布局系统以及多种低精度数据类型的广泛支持。VM程序被编译成高度高效的GPU程序，自动向量化和指令选择。广泛的实验表明，我们的VM有效地支持了所有低精度数据类型的范围，并在支持的数据类型上优于最先进的低精度内核。与现有的编译器如Triton和Ladder以及手工优化的内核如QuantLLM和Marlin相比，我们的VM分别实现了1.75x、2.61x、1.29x和1.03x的性能改进。