摘要
arXiv:2502.07503v4 宣告类型: 替换
摘要:受语言和分形几何最近发现的启发,我们引入了递归推理缩放(RINS)作为对语言和多模态系统推理时间进行扩展的互补插件配方。RINS 是一种特别形式的递归深度,其性能显著优于其他 +55 种变体,包括最近的“全部重复”(RAO)策略(Liu et al., 2024)和潜在递归思考(Geiping et al., 2025)。与先前的工作不同,我们在计算能力匹配的环境下进行了比较,证明在固定的模型大小和训练计算预算下,RINS 显著提高了语言建模性能。RINS 还在纯语言任务之外具有泛化能力,对于 SigLIP-B/16,它在零样本 ImageNet 准确率上提高了 +2%。此外,通过推导数据缩放定律,我们表明 RINS 不仅提高了渐近性能极限,还优化了缩放指数。更重要的是,通过轻量级(线性)适配器(占模型参数的不到 1%)和随机丢弃,RINS 提供了一种无后悔策略,这意味着即使在推理时不应用递归深度,RINS 启发的预训练也能提高语言建模性能。这对应于在计算能力、参数量和推理时间都匹配的环境下提高性能,表明其作为 LLM 预训练中可选组件的潜力!