LLM2D

摘要

arXiv:2502.19662v2 通知类型: 替换-交叉摘要：量化对于有效地部署大型语言模型（LLMs）至关重要。然而，传统的量化方法仍然在硬件方面保持中立，仅限于位宽约束，并且不考虑乘加（MAC）单元等固有电路特性，如时序行为和能量剖面。这种与电路级行为的脱节限制了利用可用的时序余量和节能机会的能力，从而降低了在现代加速器上部署的整体效率。为了弥补这些限制，我们提出了HALO，一个适用于硬件感知后训练量化（PTQ）的多功能框架。与传统的量化方法不同，HALO 明确地将详细的硬件特性，包括关键路径时序和能耗，纳入其量化方法中。HALO 通过选择具有低关键路径延迟的权重，使其能够支持更高的操作频率和动态频率缩放，同时不破坏架构的数据流。令人 Remarkably，HALO 通过仅进行少量动态电压和频率缩放（DVFS）调整实现这些改进，确保部署的简单性和实用性。此外，通过减少 MAC 单元内的切换活动，HALO 有效降低了能耗。在张量处理单元（TPUs）和图形处理单元（GPUs）等加速器上的评估表明，HALO 显著提高了推理效率，相对于基线量化方法实现了平均性能改进270%和能耗节省51%，同时对准确性的影响 minimal。