LLM2D

摘要

arXiv:2412.12178v2 宣布类型: replace-cross 摘要：将大型语言模型（LLMs）部署到边缘设备上可以显著提升设备的独立能力，减轻服务器的负担并降低响应时间。鉴于这些巨大的潜力，许多大型科技公司已经发布了几种轻量级的语言模型（SLMs）来弥补这一差距。然而，我们仍然有很大的动力将更强大的（LLMs）AI模型部署到边缘设备上并提高其智能水平。与传统的AI模型压缩方法不同，我们研究了激活稀疏性。激活稀疏性方法与现有技术正交且可组合，可以在保持高精度的同时最大化压缩率。LLMs中的前向网络（FFN）组件通常约占参数量的2/3（约67%），这确保了我们的FFN优化有更大概率实现有效的压缩。此外，我们的发现适用于一般的LLMs，并不局限于基于ReLU的模型。这项工作系统地研究了在最先进的LLMs上强制执行激活稀疏性和困惑度（准确度）之间的权衡。我们的实证分析表明，我们可以在可忽略不计的准确度下降的情况下，获得主要FFN组件约50%的主要内存和计算量减少。这种额外的50%稀疏性在当前的LLMs中并不存在，需要通过注入零强制阈值来调整LLMs的激活输出。为了获得激活稀疏性的益处，我们为LLM预测和预取提供了一个系统架构师指南。成功预测允许系统预取必要的权重，同时忽略不活跃的权重及其后续权重，从而减少缓存和内存污染，并降低资源受限边缘设备上的LLM执行时间。