摘要
基于自注意力机制的Transformer网络是大型语言模型的核心。在生成式Transformer中,自注意力机制使用缓存内存存储标记投影,避免在每个时间步进行重新计算。然而,GPU存储的投影必须在每个新的生成步骤中加载到SRAM中,这会导致延迟和能量瓶颈。我们提出了一种基于新兴的基于电荷的存储器(称为增益单元)的定制自注意力内存计算架构,该架构可以有效地写入以在序列生成过程中存储新的标记,并支持自注意力所需的并行模拟点积计算。然而,模拟增益单元电路引入了非理想特性和约束,阻止了预训练模型的直接映射。为了解决这个问题,我们设计了一种初始化算法,实现了与GPT-2相当的文本处理性能,无需从头开始训练。与GPU相比,我们的架构分别将注意力延迟和能耗降低了高达两个和五个数量级,标志着朝着超快速、低功耗生成式Transformer迈出了重要一步。