LLM2D

摘要

各种视觉基础模型各有优劣，这些优劣都可以通过无标签的异构多教师知识蒸馏得到改善，这种方法被称为“聚合模型”。我们基于此研究了教师激活统计量的影响，特别是损失函数对最终学生模型质量的影响。我们探索了一套标准的统计归一化技术，以更好地对齐不同的分布并评估它们的影响。此外，我们还考察了对下游教师匹配指标的影响，这促使我们使用 Hadamard 矩阵。通过这些矩阵，我们证明了其有用的特性，展示了如何将其用于各向同性标准化，其中多元分布的每个维度都使用相同的尺度进行标准化。我们称这种技术为“PHI 标准化”（PHI-S），并通过实验证明，它在所有研究方法中产生了最佳的学生模型。