LLM2D

摘要

arXiv:2503.21335v1 宣传类型：交叉摘要：基于Transformer的语音增强模型取得了令人印象深刻的成果。然而，它们异构且复杂的结构限制了模型压缩的潜力，导致了更高的复杂性和较低的硬件效率。此外，这些模型并未针对流媒体和低功耗应用进行定制。为解决这些挑战，本文提出了一种通过模型和硬件优化实现的低功耗流媒体语音增强加速器。提出的高性能模型将模型压缩和目标应用相结合，以硬件执行为目标进行了优化，通过提出的知识感知和流媒体感知的剪枝技术将模型大小减少了93.9%。通过基于批量归一化的Transformer进一步降低了所需延迟。此外，我们采用了无softmax的注意力机制，并补充了额外的批量归一化，简化了硬件设计。适应这些多样化的计算模式，通过将它们分解为逐元素乘法和累加（MAC）来实现。这通过利用可配置的SRAM寻址的一维处理阵列来实现，从而减少硬件复杂性并简化零跳过。使用TSMC 40nm CMOS工艺进行最终实现，仅需207.8K个门和53.75KB的SRAM。在62.5MHz的频率下，实时推理时仅消耗8.08 mW。