LLM2D

摘要

广泛使用的仅权重量化大型语言模型（LLM）利用低位整数 (INT) 权重并保留浮点数 (FP) 激活，从而降低了存储需求，同时保持了精度。然而，这将能量和延迟瓶颈转移到了与代价高昂的内存访问和计算相关的 FP 激活上。现有的 LLM 加速器主要关注计算优化，而忽略了联合优化 FP 计算和数据移动的潜力，特别是对于 LLM 推理中占主导地位的 FP-INT GeMM 运算。为了解决这些挑战，我们研究了不同 LLM 模块中激活精度的敏感性及其对整体模型精度的影响。基于我们的发现，我们首先提出了 Anda 数据类型：一种具有组共享指数位和动态尾数位分配的自适应数据格式。其次，我们开发了一种迭代式训练后自适应精度搜索算法，该算法优化不同 LLM 模块的位宽，以平衡模型精度、能源效率和推理速度。最后，提出了一套硬件优化技术，以最大限度地利用 Anda 格式的优势。这些技术包括基于位平面的数据组织方案、具有位串行计算的 Anda 增强处理单元以及运行时位平面 Anda 压缩器，以同时优化存储、计算和内存占用。我们对 FPINT GeMM 运算的评估表明，对于 OPT、LLaMA 和 LLaMA-2 系列等流行的 LLM，Anda 在 GPU 级 FP-FP 基线上的平均速度提升了 2.4 倍，面积效率提高了 4.0 倍，能源效率提高了 3.1 倍。Anda 在各种应用场景、精度要求和系统性能方面都表现出强大的适应性，能够在广泛的部署场景中实现高效的 LLM 推理。