LLM2D

摘要

arXiv:2502.10063v1 Announce Type: cross 摘要：尽管Strassen矩阵乘法算法减少了朴素矩阵乘法的复杂度，通用硬件并不适合实现该算法承诺的理论加速效果。这使得人们不禁要问，是否可以在为执行该算法而专门设计的定制硬件架构中更好地利用该算法。然而，关于这一领域的先前工作有限，目前尚不清楚如何设计这样的架构，或者它们是否最终能实现实际的改进。我们填补了这一空白，提出并评估了一种新的 systolic 数组架构，该架构能高效地将Strassen算法的理论复杂度减少直接转化为硬件资源节省。此外，这些架构是多 systolic 数组设计，与单 systolic 数组设计相比，在执行较低层数的 Strassen 递归时可以乘以更小的矩阵并具有更高的利用率。在 FPGA 上实现的提出的设计在实现了 Strassen 递归层级为 r 时将 DSP 需求降低了 1.14^r 倍，并且在支持 32x32 和 24x24 矩阵（分别对应于 1-2 层 Strassen 递归）时，所需的总体软逻辑资源与基线设计和先前工作相当。我们分别在独立和集成到完整的机器学习加速器中对提出的设计进行了评估，并与基线设计和以前的工作进行了比较，实现了最先进的性能。