LLM2D

摘要

arXiv:2502.01612v2 宣布类型: replace-cross 摘要：大型语言模型在长度泛化和解决超出其训练分布的复杂问题实例方面经常遇到困难。我们提出了一种自我改进的方法，其中模型通过迭代生成和学习它们自己的解决方案，逐步解决更难的问题，同时保持标准的transformer架构。在包括算术、字符串操作和迷宫求解等多种任务中，自我改进使模型能够解决远超出其初始训练分布的问题——例如，从小到10位数的加法推广到100位数的加法，而没有明显的饱和现象。我们发现，在某些情况下，筛选出正确的自我生成示例，可以导致训练轮次中出-of-distribution性能的指数级提升。此外，从预训练模型开始显著加快了这种方法在某些任务中的自我改进过程。我们的结果展示了如何通过受控的从弱到强的教学序列，系统地教会模型逻辑外推，而无需对位置嵌入或模型架构进行任何更改。