LLM2D

摘要

arXiv:2502.07823v1 宣布类型: cross 摘要:嵌入式现场可编程门阵列(eFPGAs)允许以比传统FPGA平台更低的功耗预算设计边缘机器学习(ML)应用的硬件加速器。然而，有限的eFPGA逻辑和内存显著限制了计算能力和模型大小。因此，在eFPGAs上部署ML应用程序与最近发展的针对特定架构的实现方法和最大限度地提高吞吐量而不是资源节约形成了直接对比。本文关注这一权衡的另一面：所提出的eFPGA加速器专注于最小化资源使用，并允许在吞吐量之上进行现场重新校准的灵活性。这使得在运行时可以更改模型大小、架构和输入数据维度，而无需离线重新合成。这通过使用Tsetlin Machine (TM)算法的位级压缩推理架构得以实现。TM计算不需要任何乘法操作，仅限于位级AND、OR、NOT、求和和加法。此外，TM模型压缩使得整个模型能够适应eFPGA的片上块RAM。本文利用该加速器提出了在野外观测中调整模型策略的方法。所提出的方案在LUT和寄存器使用上分别比当前最节约资源的设计少了2.5倍和3.38倍，并且在与低功耗微控制器运行相同ML应用时，实现了高达129倍的能耗降低。