LLM2D
RADIOv2.5: 改进的聚类视觉基础模型baseline
RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models
作者: Greg Heinrich (Danny), Mike Ranzinger (Danny), Hongxu (Danny), Yin, Yao Lu, Jan Kautz, Andrew Tao, Bryan Catanzaro, Pavlo Molchanov
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2412.07679v2

摘要

arXiv:2412.07679v2 宣布类型: replace-cross 摘要:聚合模型近年来已成为训练视觉基础模型的强大方法,利用来自现有模型CLIP、DINO和SAM的多教师蒸馏。这种策略能够有效地创建 robust 模型,结合各个教师的优点,同时显著减少计算和资源需求。在本文中,我们深入分析了最先进的聚合模型,识别出包括分辨率模式变化、教师不平衡、教师特有的艺术效果以及输出令牌数量过多在内的关键挑战。为了解决这些问题,我们提出了几种新颖的解决方案:多分辨率训练、马赛克增强以及改进教师损失函数的平衡。具体而言,在视觉语言模型的背景下,我们引入了一种令牌压缩技术,以在固定令牌数内保持高分辨率信息。我们发布了多个尺度(-B、-L、-H 和 -g)的高性能变体,以及推理代码和预训练权重。