LLM2D
ProTEA:基于FPGA的可编程Transformer编码器加速
ProTEA: Programmable Transformer Encoder Acceleration on FPGA
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13975v1

摘要

arXiv:2409.13975v1 公告类型: 交叉 摘要: 变压器神经网络(TNN)已被广泛应用于各种领域,包括自然语言处理(NLP)、机器翻译和计算机视觉(CV)。其广泛采用主要归功于其多头自注意力块在从序列数据中提取关键特征方面的卓越性能。多头自注意力块之后是前馈神经网络,在引入非线性以帮助模型学习复杂模式方面起着至关重要的作用。尽管TNN很受欢迎,但针对这两个关键块的硬件加速器数量有限。大多数先前的工作都集中在不适合流行TNN变体的稀疏架构上。本文介绍了\textit{ProTEA},一种针对大多数最先进变压器编码器的密集计算量身定制的运行时可编程加速器。\textit{ProTEA}旨在通过最大化并行性来减少延迟。我们引入了一种高效的大矩阵分块方法,可以将内存和计算资源分布到FPGA内的不同硬件组件中。我们在Xilinx Alveo U55C高性能数据中心加速卡上对\textit{ProTEA}进行了运行时评估。实验结果表明,\textit{ProTEA}可以承载多种流行的变压器网络,并在多头自注意力块中分块大小为64、前馈网络块中分块大小为6时,在配置了8个并行注意力头、12层和768维嵌入的U55C上实现接近最佳性能。比较结果显示,\textit{ProTEA}比NVIDIA Titan XP GPU快2.5倍。结果还显示,与当前最先进的定制FPGA加速器相比,它实现了1.3到2.8倍的加速。