LLM2D

摘要

arXiv:2504.13219v1 Announce Type: cross 摘要：目前针对视觉AI模型的扩增法则主要集中在大规模预训练上，对于数据受限的下游任务如何递增的问题留下了关键的缺口。为了解决这一局限性，本文建立了第一个适用于数据高效扩增法则的实践框架，解决两个基本问题：1) 当下游任务在有限数据条件下运行时，扩增行为如何变化？2) 在这种限制条件下，知识蒸馏的效用由什么决定？通过系统分析从1K到1M样本跨越不同数据范围的视觉任务，我们提出了蒸馏边界理论，揭示了蒸馏效率的关键转折点：1) 蒸馏优势：在数据稀缺的条件下，蒸馏模型显著优于非蒸馏模型，有效地利用继承的知识来弥补有限的训练样本。2) 预训练主导：当预训练数据超过一个关键阈值时，非蒸馏模型逐渐超越蒸馏版本，表明当充足的任务特定数据可用时，知识继承的效果会逐渐减弱。在各种模型规模（2.5M到38M参数）和数据量上的实证验证表明了这些性能转折点，在关键数据阈值处，误差差异曲线从正值转变为负值，证实了我们的理论预测。本文重新定义了数据受限条件下的扩增法则，填补了大规模预训练和实际下游适应之间知识差距，解决了理解视觉模型扩增行为和优化计算资源分配的关键障碍。