摘要
arXiv:2504.13219v1 Announce Type: cross
摘要:目前针对视觉AI模型的扩增法则主要集中在大规模预训练上,对于数据受限的下游任务如何递增的问题留下了关键的缺口。为了解决这一局限性,本文建立了第一个适用于数据高效扩增法则的实践框架,解决两个基本问题:1) 当下游任务在有限数据条件下运行时,扩增行为如何变化?2) 在这种限制条件下,知识蒸馏的效用由什么决定?通过系统分析从1K到1M样本跨越不同数据范围的视觉任务,我们提出了蒸馏边界理论,揭示了蒸馏效率的关键转折点:1) 蒸馏优势:在数据稀缺的条件下,蒸馏模型显著优于非蒸馏模型,有效地利用继承的知识来弥补有限的训练样本。2) 预训练主导:当预训练数据超过一个关键阈值时,非蒸馏模型逐渐超越蒸馏版本,表明当充足的任务特定数据可用时,知识继承的效果会逐渐减弱。在各种模型规模(2.5M到38M参数)和数据量上的实证验证表明了这些性能转折点,在关键数据阈值处,误差差异曲线从正值转变为负值,证实了我们的理论预测。本文重新定义了数据受限条件下的扩增法则,填补了大规模预训练和实际下游适应之间知识差距,解决了理解视觉模型扩增行为和优化计算资源分配的关键障碍。