LLM2D

摘要

arXiv:2412.07679v2 宣布类型: replace-cross 摘要：聚合模型近年来已成为训练视觉基础模型的强大方法，利用来自现有模型CLIP、DINO和SAM的多教师蒸馏。这种策略能够有效地创建 robust 模型，结合各个教师的优点，同时显著减少计算和资源需求。在本文中，我们深入分析了最先进的聚合模型，识别出包括分辨率模式变化、教师不平衡、教师特有的艺术效果以及输出令牌数量过多在内的关键挑战。为了解决这些问题，我们提出了几种新颖的解决方案：多分辨率训练、马赛克增强以及改进教师损失函数的平衡。具体而言，在视觉语言模型的背景下，我们引入了一种令牌压缩技术，以在固定令牌数内保持高分辨率信息。我们发布了多个尺度（-B、-L、-H 和 -g）的高性能变体，以及推理代码和预训练权重。