摘要
arXiv:2412.12178v2 宣布类型: replace-cross
摘要:将大型语言模型(LLMs)部署到边缘设备上可以显著提升设备的独立能力,减轻服务器的负担并降低响应时间。鉴于这些巨大的潜力,许多大型科技公司已经发布了几种轻量级的语言模型(SLMs)来弥补这一差距。然而,我们仍然有很大的动力将更强大的(LLMs)AI模型部署到边缘设备上并提高其智能水平。与传统的AI模型压缩方法不同,我们研究了激活稀疏性。激活稀疏性方法与现有技术正交且可组合,可以在保持高精度的同时最大化压缩率。LLMs中的前向网络(FFN)组件通常约占参数量的2/3(约67%),这确保了我们的FFN优化有更大概率实现有效的压缩。此外,我们的发现适用于一般的LLMs,并不局限于基于ReLU的模型。这项工作系统地研究了在最先进的LLMs上强制执行激活稀疏性和困惑度(准确度)之间的权衡。我们的实证分析表明,我们可以在可忽略不计的准确度下降的情况下,获得主要FFN组件约50%的主要内存和计算量减少。这种额外的50%稀疏性在当前的LLMs中并不存在,需要通过注入零强制阈值来调整LLMs的激活输出。为了获得激活稀疏性的益处,我们为LLM预测和预取提供了一个系统架构师指南。成功预测允许系统预取必要的权重,同时忽略不活跃的权重及其后续权重,从而减少缓存和内存污染,并降低资源受限边缘设备上的LLM执行时间。