LLM2D
从视觉-语言模型中通过Dual-Head优化实现简单的半监督知识蒸馏
Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization
作者: Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Sung Ju Hwang
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.07675v1

摘要

arXiv:2505.07675v1 消息类型: cross 摘要:视觉-语言模型(VLMs)通过利用丰富的文本信息并在最少的标记数据下实现了多样化任务的显著成功。然而,在资源受限的环境中部署如此大的模型仍然具有挑战性。知识蒸馏(KD)为解决这一问题提供了一个成熟的解决方案;然而,最近从VLMs来的KD方法通常涉及多阶段训练或额外调优,增加了计算开销和优化复杂性。在本文中,我们提出了一种简单的yet有效的KD框架——双头优化(DHO),它在半监督设置中将VLMs的知识转移到紧凑的任务特定模型中。具体而言,我们引入了两个独立的学习头,分别从标记数据和教师预测中学习,并提出在推理过程中线性组合它们的输出。我们观察到DHO减轻了监督信号和蒸馏信号之间的梯度冲突,使得在单个学习头KD基线中更有效地学习特征。结果,广泛的实验表明,DHO在多个领域和细粒度的数据集中始终优于基线方法。值得注意的是,在ImageNet上,它达到了最先进的性能,在使用1%和10%标记数据的情况下,分别提高了3%和0.1%的准确性,同时使用更少的参数。