LLM2D

摘要

arXiv:2502.07503v4 宣告类型: 替换摘要：受语言和分形几何最近发现的启发，我们引入了递归推理缩放（RINS）作为对语言和多模态系统推理时间进行扩展的互补插件配方。RINS 是一种特别形式的递归深度，其性能显著优于其他 +55 种变体，包括最近的“全部重复”（RAO）策略（Liu et al., 2024）和潜在递归思考（Geiping et al., 2025）。与先前的工作不同，我们在计算能力匹配的环境下进行了比较，证明在固定的模型大小和训练计算预算下，RINS 显著提高了语言建模性能。RINS 还在纯语言任务之外具有泛化能力，对于 SigLIP-B/16，它在零样本 ImageNet 准确率上提高了 +2%。此外，通过推导数据缩放定律，我们表明 RINS 不仅提高了渐近性能极限，还优化了缩放指数。更重要的是，通过轻量级（线性）适配器（占模型参数的不到 1%）和随机丢弃，RINS 提供了一种无后悔策略，这意味着即使在推理时不应用递归深度，RINS 启发的预训练也能提高语言建模性能。这对应于在计算能力、参数量和推理时间都匹配的环境下提高性能，表明其作为 LLM 预训练中可选组件的潜力！