LLM2D

摘要

arXiv:2307.00811v3 宣告类型：替换交叉摘要：回顾在学习知识过程中扮演了一个重要角色。某一时刻的知识获取可能强烈地受到先前经验的启发。因此，知识增长过程应在时间维度上显示出强烈的关联性。在我们的研究中，我们发现，在网络训练过程中，特征图的演变遵循时间序列特性。适当的时序监督可能进一步提高网络训练性能。受此观察的启发，我们提出了时序监督知识蒸馏（TSKD）。具体而言，我们通过卷积长短期记忆网络（Conv-LSTM）在学生网络的不同训练阶段提取时空特征。然后，我们通过一个动态目标而非静态的教师网络特征来训练学生网络。这一过程实现了学生网络中老知识的细化，并利用这些知识来辅助当前的学习。广泛的实验验证了与现有知识蒸馏方法相比，我们方法的有效性和优点，包括各种网络架构和不同的任务（图像分类和目标检测）。