摘要
强大的基础模型,包括基于 Transformer 架构的大型语言模型 (LLMs),为各个行业的生成式 AI 开启了新纪元。工业界和研究界见证了基于这些基础模型的大量新应用。这些应用包括问答、客户服务、图像和视频生成以及代码补全等。然而,随着模型参数数量达到数千亿,其部署在现实场景中会产生高昂的推理成本和高延迟。因此,对使用 AI 加速器进行经济高效且快速推理的需求越来越高。为此,我们的教程全面讨论了使用 AI 加速器的互补推理优化技术。从基本 Transformer 架构和深度学习系统框架概述开始,我们深入探讨了用于快速、内存高效的注意力计算的系统优化技术,并讨论了如何在 AI 加速器上有效地实现它们。接下来,我们描述了快速 Transformer 推理的关键架构元素。最后,我们将在相同背景下考察各种模型压缩和快速解码策略。