LLM2D

摘要

arXiv:2503.21337v1 交叉类型: 同时发布摘要: 本文介绍了一种针对边缘设备实时应用设计的71.2-μW语音识别加速器，强调了其超低功耗设计。通过算法和硬件的协同优化，我们提出了一种紧凑的循环尖劈神经网络，包含两层循环层、一层全连接层以及低时间步长（1或2）。2.79 MB的模型经过剪枝和4位定点量化，缩小了96.42%到0.1 MB。在硬件方面，我们利用混合级别剪枝、零跳跃和合并尖劈技术，将复杂度降低了90.49%到13.86 MMAC/S。并行时间步长执行解决了跨时间步长的数据依赖性，并通过权重共享实现权重缓存的功耗节省。利用稀疏的尖劈活动，输入广播方案消除了零计算，进一步节省了功耗。该设计基于TSMC 28-nm工艺，在100 kHz频率下实时运行，功耗为71.2 μW，超越了当前最先进的设计。在500 MHz下，其能效为28.41 TOPS/W，面积效率为1903.11 GOPS/mm²。