摘要
arXiv:2412.07679v2 宣布类型: replace-cross
摘要:聚合模型近年来已成为训练视觉基础模型的强大方法,利用来自现有模型CLIP、DINO和SAM的多教师蒸馏。这种策略能够有效地创建 robust 模型,结合各个教师的优点,同时显著减少计算和资源需求。在本文中,我们深入分析了最先进的聚合模型,识别出包括分辨率模式变化、教师不平衡、教师特有的艺术效果以及输出令牌数量过多在内的关键挑战。为了解决这些问题,我们提出了几种新颖的解决方案:多分辨率训练、马赛克增强以及改进教师损失函数的平衡。具体而言,在视觉语言模型的背景下,我们引入了一种令牌压缩技术,以在固定令牌数内保持高分辨率信息。我们发布了多个尺度(-B、-L、-H 和 -g)的高性能变体,以及推理代码和预训练权重。