摘要
本文设计了一种针对 AIoT 系统中设备级时间序列预测优化的 Transformer 硬件加速器。它将仅整数量化和量化感知训练与优化硬件设计相结合,实现了 6 位和 4 位量化 Transformer 模型,其精度与相关研究中 8 位量化模型相当。通过在嵌入式 FPGA(Xilinx Spartan-7 XC7S15)上进行完整实现,我们考察了在嵌入式物联网设备上部署 Transformer 模型的可行性。这包括对可实现精度、资源利用率、时序、功率和能耗进行彻底分析。我们的结果表明,虽然可以获得足够的性能,但优化过程并非易事。例如,降低量化位宽并不总是导致延迟或能耗降低,这突出了系统地探索各种优化组合的必要性。与相关研究中的 8 位量化 Transformer 模型相比,我们的 4 位量化 Transformer 模型仅将测试损失提高了 0.63%,运行速度提高了 132.33 倍,能耗降低了 48.19 倍。