LLM2D
Head-Tail 意识KL散度在脉冲神经网络的知识精炼中
Head-Tail-Aware KL Divergence in Knowledge Distillation for Spiking Neural Networks
作者: Tianqing Zhang, Zixin Zhu, Kairong Yu, Hongwei Wang
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20445v1

摘要

arXiv:2504.20445v1 公告类型: 新 摘要: 神经元脉冲网络(SNNs)已成为一种有前途的方法,用于实现能效高和生物合理性计算。然而,由于现有训练方法的限制和固有的模型约束,SNNs在与人工神经网络(ANNs)的性能对比中经常表现出差距。知识蒸馏(KD)作为一种技术,已被探讨将其应用于将ANN教师模型的知识转移到SNN学生模型上,以弥补这种差距。传统的KD方法通常使用Kullback-Leibler (KL)散度来对准输出分布。然而,传统的基于KL的方法未能充分利用SNNs的独特特性,因为它们往往会过度强调高概率预测而忽视低概率预测,导致不佳的泛化性能。为了解决这个问题,我们提出了一种新颖的KD方法——头部和尾部感知Kullback-Leibler (HTA-KL)散度,专门为SNNs设计。HTA-KL引入了一个基于累积概率的掩码,以动态区分高概率和低概率区域,并分配自适应权重以确保知识转移的平衡,从而增强整体性能。通过结合前向KL (FKL)和逆向KL (RKL)散度,我们的方法有效地对分布的头尾区域进行了对准。我们在CIFAR-10、CIFAR-100和Tiny ImageNet数据集上评估了我们的方法。在大多数数据集上,我们的方法在较少的时步骤中比现有方法表现更好。