LLM2D

摘要

基于自注意力机制的Transformer网络是大型语言模型的核心。在生成式Transformer中，自注意力机制使用缓存内存存储标记投影，避免在每个时间步进行重新计算。然而，GPU存储的投影必须在每个新的生成步骤中加载到SRAM中，这会导致延迟和能量瓶颈。我们提出了一种基于新兴的基于电荷的存储器（称为增益单元）的定制自注意力内存计算架构，该架构可以有效地写入以在序列生成过程中存储新的标记，并支持自注意力所需的并行模拟点积计算。然而，模拟增益单元电路引入了非理想特性和约束，阻止了预训练模型的直接映射。为了解决这个问题，我们设计了一种初始化算法，实现了与GPT-2相当的文本处理性能，无需从头开始训练。与GPU相比，我们的架构分别将注意力延迟和能耗降低了高达两个和五个数量级，标志着朝着超快速、低功耗生成式Transformer迈出了重要一步。