摘要
arXiv:2502.07503v2 宣布类型: 替换
摘要: 语言模型方面的近期研究表明,存在两种缩放效应:众所周知的训练计算增加带来的改进,以及较少为人所知的通过应用更复杂或计算密集型的推理方法带来的提升。受到语言分形几何结构的近期发现的启发,我们引入了递归推断缩放(RINS)作为一种补充的、可插入的缩放配方,用于缩放推理时间。对于给定的固定模型架构和训练计算预算,RINS 显著提高了语言模型性能。它还超越了纯粹的语言任务,为多模态系统带来了收益,包括在 SigLIP-B/16 上实现了 0 射弹 ImageNet 准确率 +2% 的改进。此外,通过推导数据缩放定律,我们展示了 RINS 不仅改善了渐进性能极限和缩放指数,即使与最先进的递归技术(如移动大语言模型中的“全部重复”策略 RAO)进行比较时,也能保持这些优势。最后,随机RINS不仅能够进一步提升性能,还提供了在测试时选择放弃增加推理计算的灵活性,同时对性能的下降影响 minimal。