LLM2D

摘要

传统的知识蒸馏（KD）依赖于在目标任务上训练出的熟练教师模型，而这并非总是可用。在这种情况下，跨任务蒸馏可以被利用，使得可以使用在不同任务上训练的任何教师模型。然而，许多KD方法在应用于此跨任务设置时被证明是无效的。为了解决这一限制，我们提出了一种简单的修改：使用反向投影。我们通过学习忽略任何可能降低学生模型性能的任务特定特征，展示了这种标准投影的直接替换是有效的。我们发现，这种简单的修改足以将许多KD方法扩展到跨任务设置，其中教师和学生任务可能大相径庭。通过这样做，与传统的投影相比，我们在跨任务设置中获得了高达1.9%的性能提升，且无需额外成本。即使使用在深度估计、图像翻译和语义分割等各种任务上随机初始化的教师模型，我们的方法也能获得显著的性能提升（高达7%），尽管缺乏任何可转移的学习知识。为了提供对该结果的概念性和分析性见解，我们展示了使用反向投影允许将蒸馏损失分解为知识转移和谱正则化分量。通过这种分析，我们还可以提出一种新的正则化损失，允许无教师蒸馏，在ImageNet上实现了高达8.57%的性能提升，且无需额外的训练成本。