摘要
arXiv:2502.03275v1 类型:交叉
摘要:在训练数据中明确通过文本标记列出逐步思维过程的情况下,大型语言模型(LLMs)在推理和规划方面表现出色。然而,这会导致长度较长的输入,其中许多单词支持文本连贯性而不是核心推理信息,处理这些输入会消耗大量的计算资源。在本文中,我们提出了一种混合的推理过程表示法,其中我们部分地使用由VQ-VAE生成的潜在离散标记抽象掉最初的推理步骤,显著减少了推理轨迹的长度。我们探索了潜在轨迹抽象的两种应用场景:1) 从头开始训练模型解决钥匙查找迷宫问题;2) 使用扩展词汇表包括未见过的潜在标记对这种混合数据进行LLMs微调,包括逻辑和数学推理问题。为了促进有效的学习,我们介绍了一种简单的训练程序,将潜在标记和文本标记随机混合,这使得模型能够快速适应新的潜在标记。我们的方法在各种基准测试中始终优于基线方法。