LLM2D

摘要

arXiv:2505.06085v1 Announce Type: cross 摘要：随着对于生成式AI作为大型语言模型（LLMs）服务的需求增加，已经推动了优化计算效率和能源消耗的专用硬件架构的需求。本文评估了Tenstorrent Grayskull e75 RISC-V加速器在较低数值精度下执行基本线性代数内核的性能，这是LLM计算中的基本操作。我们详细介绍了Grayskull的执行模型、网格大小、矩阵维度、数据格式以及数值精度对计算效率的影响。此外，我们将Grayskull的性能与具有张量加速的最新架构进行了比较，包括Intel Sapphire Rapids处理器和两个NVIDIA GPU（V100和A100）。尽管NVIDIA GPUs在原始性能上占据主导地位，但Grayskull在能耗和计算吞吐量之间表现出竞争力的折衷，BF16的峰值性能达到1.55 TFLOPs/Watt。