LLM2D

摘要

arXiv:2409.14023v1 公告类型: 交叉摘要: 变压器神经网络（TNNs）正在被应用于越来越广泛的应用领域，包括自然语言处理（NLP）、机器翻译和计算机视觉（CV）。它们的流行在很大程度上归功于其多头自注意力块在分析序列数据和提取特征时的卓越性能。迄今为止，针对这一机制的专用硬件加速器仍然有限，这是在为完整模型设计加速器之前的第一个步骤。本文提出了\textit{FAMOUS}，一种用于在现场可编程门阵列（FPGAs）上进行密集多头注意力（MHA）计算的灵活硬件加速器。它针对处理单元和片上内存的高利用率进行了优化，以提高并行性和减少延迟。通过采用大型矩阵的高效分块方法，将内存和计算资源分布在不同FPGA平台上的各个模块中。该设计在包含Ultrascale+ FPGAs的Xilinx Alveo U55C和U200数据中心卡上进行了评估。实验结果表明，在U55C上，它可以达到最大吞吐量、并行注意力头数、嵌入维度和分块大小分别为328（十亿次操作/秒（GOPS））、8、768和64。此外，它比Intel Xeon Gold 5220R CPU和NVIDIA V100 GPU分别快3.28倍和2.6倍。它也比最快的现有FPGA加速器快1.3倍。