LLM2D

摘要

arXiv:2502.06192v1 类型: cross 摘要: 知识蒸馏（KD）是一种训练深度神经网络（DNNs）的强大策略。尽管最初提出是从一个大型的“教师”模型训练一个更为简洁的“学生”模型，但近年来的研究更多地关注于将其作为一种促进模型自身泛化的有效方式，例如在线KD和自我KD。在这里，我们提出了一种名为分时KD（Spaced KD）的简单且兼容的策略，以提高这两种方式的有效性。在这种策略中，“学生”模型从训练时间间隔提前的“教师”模型中吸取知识。这种策略受到了生物学习和记忆中一个知名理论——间隔效应的启发，该理论认为，学习试验之间的适当间隔可以显著提高学习效果。通过理论和实证分析，我们证明了提出的Spaced KD的优点源自随机梯度下降（SGD）过程中损失景观的收敛变得更为平坦。我们在多个实验中验证了Spaced KD在提高DNNs学习性能方面的有效性（例如，在Tiny-ImageNet数据集上，Spaced KD相对于在线KD的性能提升最多可达2.31%，相对于自我KD的性能提升最多可达3.34%）。