摘要
arXiv:2502.01612v1 强化类型: 交叉
摘要:大型语言模型在处理长度泛化和解决超出其训练分布的复杂问题实例方面常常存在困难。我们提出了一个自我改进方法,其中模型迭代生成并学习它们自己的解决方案,逐步解决问题越来越难的任务,同时保持标准的变压器架构。在包括算术、字符串操作和迷宫求解等多样化任务中,自我改进使模型能够解决远超其初始训练分布的问题——例如,从10位数加法泛化到100位数加法,而没有明显的饱和现象。我们观察到,在某些情况下,过滤正确生成的样本会导致在训练轮次中的分布外性能指数级提高。此外,从预训练模型开始显著加速了几个任务的自我改进过程。我们的结果展示了如何通过受控的自弱到强的课程学习系统地教导模型逻辑外推,而无需对位置嵌入或模型架构进行任何更改。