LLM2D
评估Tenstorrent的RISC-V矩阵乘法加速能力
Assessing Tenstorrent's RISC-V MatMul Acceleration Capabilities
作者: Hiari Pizzini Cavagna, Daniele Cesarini, Andrea Bartolini
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.06085v2

摘要

arXiv:2505.06085v2 通告类型: replace-cross 摘要:随着大型语言模型(LLMs)服务对生成式AI的需求不断增加,对专门硬件架构的需求也增加了,这些架构可以优化计算效率和能源消耗。本文评估了Tenstorrent Grayskull e75 RISC-V加速器在降低数值精度下的基本线性代数内核性能,这是LLMs计算中的一个基本操作。我们详细介绍了Grayskull的执行模型、网格大小、矩阵维度、数据格式以及数值精度对计算效率的影响。此外,我们将Grayskull的性能与具有张量加速的最新架构进行了比较,包括Intel Sapphire Rapids处理器和两个NVIDIA GPU(V100和A100)。尽管NVIDIA GPU在原始性能上占据主导地位,但Grayskull在功耗和计算吞吐量之间的竞争性权衡中表现出色,其BF16峰值性能达到1.55 TFLOPs/Watt。