摘要
arXiv:2505.06595v1 Announce Type: cross
摘要:在本文中,我们提出了一种将大型教师模型的特征表示转移到轻量级学生模型的方法。我们通过一种新的概念——感知一致性(perception coherence)进行了数学上的定义。基于这一概念,我们提出了一种损失函数,该损失函数通过数据点在特征空间中的排名来考虑数据点之间的差异。从高层次来看,通过最小化这种损失函数,学生模型学会了模仿教师模型如何感知输入。更精确地说,我们的方法是基于学生模型的表现能力弱于教师模型这一事实而提出的。因此,我们旨在开发一种新的方法,允许更好的放松。这意味着,学生模型不需要保留教师模型的绝对几何结构,只要通过差异排名保留全局一致性即可。我们的理论洞察为我们提供了特征表示转移过程的概率视角。我们的实验结果表明,与强基线方法相比,我们的方法在特征转移方面表现出更好的性能或可与基线方法持平。