LLM2D

摘要

arXiv:2504.14915v1 适配类型: 跨领域摘要：在本文中，我们提出了StableQuant，一种针对广泛使用的语音基础模型（SFMs）的新颖自适应后训练量化（PTQ）算法。尽管PTQ因其能够绕过额外的微调已经被成功应用于压缩大规模语言模型（LLMs），但直接将这些技术应用于SFMs可能会导致效果不佳，因为SFMs使用了不同的网络架构进行特征提取。StableQuant无论网络架构类型如何，均能表现出最佳的量化性能，因为它通过分析每层的尺度分布和整体性能来自适应地确定每个层的量化范围。我们将在两种SFMs，HuBERT和wav2vec2.0上对我们的算法进行自动语音识别（ASR）任务的评估，并实现了与传统PTQ方法相比更优的性能。通过8位量化，StableQuant成功地将SFM模型大小减少了四分之一，同时将推理速度翻倍，同时使词错误率（WER）性能下降控制在少于0.3%。