LLM2D
评估Tenstorrent的RISC-V矩阵乘法加速能力
Assessing Tenstorrent's RISC-V MatMul Acceleration Capabilities
作者: Hiari Pizzini Cavagna, Daniele Cesarini, Andrea Bartolini
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.06085v1

摘要

arXiv:2505.06085v1 Announce Type: cross 摘要:随着对于生成式AI作为大型语言模型(LLMs)服务的需求增加,已经推动了优化计算效率和能源消耗的专用硬件架构的需求。本文评估了Tenstorrent Grayskull e75 RISC-V加速器在较低数值精度下执行基本线性代数内核的性能,这是LLM计算中的基本操作。我们详细介绍了Grayskull的执行模型、网格大小、矩阵维度、数据格式以及数值精度对计算效率的影响。此外,我们将Grayskull的性能与具有张量加速的最新架构进行了比较,包括Intel Sapphire Rapids处理器和两个NVIDIA GPU(V100和A100)。尽管NVIDIA GPUs在原始性能上占据主导地位,但Grayskull在能耗和计算吞吐量之间表现出竞争力的折衷,BF16的峰值性能达到1.55 TFLOPs/Watt。