LLM2D

摘要

arXiv:2502.03275v1 类型:交叉摘要:在训练数据中明确通过文本标记列出逐步思维过程的情况下，大型语言模型（LLMs）在推理和规划方面表现出色。然而，这会导致长度较长的输入，其中许多单词支持文本连贯性而不是核心推理信息，处理这些输入会消耗大量的计算资源。在本文中，我们提出了一种混合的推理过程表示法，其中我们部分地使用由VQ-VAE生成的潜在离散标记抽象掉最初的推理步骤，显著减少了推理轨迹的长度。我们探索了潜在轨迹抽象的两种应用场景：1) 从头开始训练模型解决钥匙查找迷宫问题；2) 使用扩展词汇表包括未见过的潜在标记对这种混合数据进行LLMs微调，包括逻辑和数学推理问题。为了促进有效的学习，我们介绍了一种简单的训练程序，将潜在标记和文本标记随机混合，这使得模型能够快速适应新的潜在标记。我们的方法在各种基准测试中始终优于基线方法。