摘要
arXiv:2502.07503v1 宣布类型: 新颖
摘要:最近在语言模型方面的研究表明了两种缩放效应:人们熟知的通过增加训练计算量所带来的改进,以及较少为人所知的通过应用更复杂或计算密集型的推断方法所带来的提升。受近期关于语言的分形几何研究的启发,我们引入了递归推断缩放(RINS)作为一种补充的、可插拔的缩放推断时间的食谱。对于给定的固定模型架构和训练计算预算,RINS显著提高了语言模型的性能。它还超越了单纯的文本任务,为多模态系统带来了提升,包括SigLIP-B/16在零样本ImageNet准确率上的2%提升。此外,通过推导数据缩放定律,我们展示了RINS不仅提高了渐近性能极限和缩放指数,而且在与当前最先进的递归技术(如Mobile LLM中的“全部重复”策略RAO)进行比较时,这些优势仍然保持。最后,随机RINS不仅可以进一步提升性能,还可以在测试时选择不增加推断计算量的情况下,最大限度地减少性能下降。