LLM2D

摘要

arXiv:2502.13389v1 公告类型: 新摘要: 在这项工作中，我们提出了强化功能令牌调谐(RFTT)，这是一种新颖的强化微调框架，赋予大型语言模型(LLMs)自我对弈学习推理的能力。与以往基于提示的推理努力不同，RFTT将一组可学习的功能令牌(例如, , )直接嵌入到模型词汇中，从而能够构造具有多样的人类推理行为的链式思考。具体而言，RFTT包含两个阶段：(1) 监督微调通过基于提示的树搜索获得带有功能令牌的自我生成训练数据，这使模型能够学习这些令牌以进行推理；和(2) 在线强化学习进一步允许模型通过功能令牌采样探索不同的推理路径，而无需依赖提示，从而促进功能推理的有效自我改善。广泛实验表明，RFTT在数学基准测试上的优越性，显著提升了Qwen-2.5-7B-Instruct (从70.6%到79.8%)和LLaMA-3.1-8B-Instruct (从32.2%到60.2%)在MATH数据集上的表现。此外，RFTT在推理时进行的更多搜索展开次数会持续提高性能。我们的代码可在https://github.com/sastpg/RFTT获取。