LLM2D

摘要

大型语言模型（LLM）已被广泛应用，但在高效推理方面面临挑战。虽然量化方法降低了计算需求，但由于 GPU Tensor Core 支持有限且内存管理效率低下，超低比特量化在任意精度方面受到阻碍，导致加速效果不佳。为了解决这些挑战，我们提出了一种针对任意精度 LLM 的全面加速方案。其核心是，我们引入了一种新颖的双极性-INT 数据格式，该格式有助于并行计算并支持对称量化，有效地减少数据冗余。在此基础上，我们实现了一种任意精度矩阵乘法方案，该方案在位级对矩阵进行分解和恢复，从而在最大限度地利用 GPU Tensor Core 的同时实现灵活的精度。此外，我们开发了一种高效的矩阵预处理方法，该方法优化了数据布局以用于后续计算。最后，我们设计了一个面向数据恢复的内存管理系统，该系统战略性地利用快速共享内存，显着提高内核执行速度并最大程度地减少内存访问延迟。实验结果表明，我们的方法非常有效，与 NVIDIA 的 CUTLASS 相比，矩阵乘法的速度提高了 13 倍。当集成到 LLM 中时，我们实现了高达 6.7 倍的推理加速。这些改进显着提高了 LLM 推理效率，使 LLM 的应用范围更广，响应能力更强。