摘要
arXiv:2505.08364v1 公布类型: 新作
摘要: 尽管在数学推理等领域取得了显著进展,大型语言模型仍面临在一致解决复杂问题方面的重要挑战。受到关键的人类学习策略的启发,我们提出了两种新策略来增强大型语言模型解决这些复杂问题的能力。首先,自适应难度课程学习(ADCL)是一种新颖的课程学习策略,通过定期重新评估即将到来的数据批次中的难度,解决模型在训练过程中问题难度感知动态变化的现象(即模型对问题难度的感知在训练过程中会动态变化),以保持与模型不断演化的能 力的对齐。其次,专家引导的自我重述(EGSR)是一种新颖的强化学习策略,它通过在模型自身的概念框架内指导模型重述专家解决方案,而不是依赖直接模仿,来弥合模仿学习和纯粹探索之间的差距,从而促进更深入的理解和知识吸收。在AIME24和AIME25等具有挑战性的数学推理基准上使用Qwen2.5-7B作为基模型进行的广泛实验表明,这些受人类启发的策略可以协同和显著地增强性能。值得注意的是,将它们结合使用在AIME24基准上将标准Zero-RL基线的性能提高了10%,而在AIME25基准上提高了16.6%。