LLM2D

摘要

arXiv:2505.06085v2 通告类型: replace-cross 摘要：随着大型语言模型（LLMs）服务对生成式AI的需求不断增加，对专门硬件架构的需求也增加了，这些架构可以优化计算效率和能源消耗。本文评估了Tenstorrent Grayskull e75 RISC-V加速器在降低数值精度下的基本线性代数内核性能，这是LLMs计算中的一个基本操作。我们详细介绍了Grayskull的执行模型、网格大小、矩阵维度、数据格式以及数值精度对计算效率的影响。此外，我们将Grayskull的性能与具有张量加速的最新架构进行了比较，包括Intel Sapphire Rapids处理器和两个NVIDIA GPU（V100和A100）。尽管NVIDIA GPU在原始性能上占据主导地位，但Grayskull在功耗和计算吞吐量之间的竞争性权衡中表现出色，其BF16峰值性能达到1.55 TFLOPs/Watt。