摘要
各种视觉基础模型各有优劣,这些优劣都可以通过无标签的异构多教师知识蒸馏得到改善,这种方法被称为“聚合模型”。我们基于此研究了教师激活统计量的影响,特别是损失函数对最终学生模型质量的影响。我们探索了一套标准的统计归一化技术,以更好地对齐不同的分布并评估它们的影响。此外,我们还考察了对下游教师匹配指标的影响,这促使我们使用 Hadamard 矩阵。通过这些矩阵,我们证明了其有用的特性,展示了如何将其用于各向同性标准化,其中多元分布的每个维度都使用相同的尺度进行标准化。我们称这种技术为“PHI 标准化”(PHI-S),并通过实验证明,它在所有研究方法中产生了最佳的学生模型。