LLM2D
边缘系统中高效Transformer的 systolic 数组和结构化剪枝协同设计
Systolic Arrays and Structured Pruning Co-design for Efficient Transformers in Edge Systems
作者: Pedro Palacios, Rafael Medina, Jean-Luc Rouas, Giovanni Ansaloni, David Atienza
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2411.10285v2

摘要

arXiv:2411.10285v2 Announce Type: replace-cross 摘要:在边缘设备上高效部署资源密集型变压器要求进行跨栈优化。因此,我们研究了结构化剪枝与系统阵列加速之间的相互关系,使剪枝后的块大小与系统阵列维度相匹配。在这种情况下,可以跳过剪枝权重块的计算,从而减少运行时间和能耗,但可能会对服务质量 (QoS) 产生影响。为了评估系统阵列大小与稀疏性机会之间的权衡,我们提出了一种新的联合设计框架,该框架结合了算法优化、系统仿真和硬件设计。针对使用变压器的例子研究言语识别和机器翻译,我们分析了跨堆栈配置选择对性能指标的影响。结果显示,在支持系统阵列加速的系统上进行结构化剪枝可以有效提高性能,同时保持高QoS水平。在标准LibriSpeech数据集上,仅由于结构化剪枝和量化导致词错误率下降了1.4%,实现了高达44%的系统级加速。