摘要
大型语言模型(LLM)已被广泛应用,但在高效推理方面面临挑战。虽然量化方法降低了计算需求,但由于 GPU Tensor Core 支持有限且内存管理效率低下,超低比特量化在任意精度方面受到阻碍,导致加速效果不佳。为了解决这些挑战,我们提出了一种针对任意精度 LLM 的全面加速方案。其核心是,我们引入了一种新颖的双极性-INT 数据格式,该格式有助于并行计算并支持对称量化,有效地减少数据冗余。在此基础上,我们实现了一种任意精度矩阵乘法方案,该方案在位级对矩阵进行分解和恢复,从而在最大限度地利用 GPU Tensor Core 的同时实现灵活的精度。此外,我们开发了一种高效的矩阵预处理方法,该方法优化了数据布局以用于后续计算。最后,我们设计了一个面向数据恢复的内存管理系统,该系统战略性地利用快速共享内存,显着提高内核执行速度并最大程度地减少内存访问延迟。实验结果表明,我们的方法非常有效,与 NVIDIA 的 CUTLASS 相比,矩阵乘法的速度提高了 13 倍。当集成到 LLM 中时,我们实现了高达 6.7 倍的推理加速。这些改进显着提高了 LLM 推理效率,使 LLM 的应用范围更广,响应能力更强。