摘要
arXiv:2504.11336v1 类型: cross
摘要:因果语言模型训练的结构假定每个令牌可以从之前的上下文中准确预测。这与人类自然写作和推理过程形成对比,在自然写作和推理过程中,目标通常在具体的论据或措辞确定之前就已经知道了。尽管这种不匹配已在文献中得到了充分研究,但工作假设一直是需要架构上的变化来解决这种不匹配。我们认为,重新排列和处理训练数据序列可以让模型更准确地模仿真实的数据生成过程,并且不需要对架构或训练基础设施进行任何其他更改。我们证明,这种方法Trelawney及其从中衍生出的推理算法能够使我们在涉及规划、算法推理和故事生成任务的关键基准上性能得到改进。最后,我们的方法自然地使得在不增加额外成本的情况下生成长期目标成为可能。我们研究了利用模型的生成目标能力如何进一步提高规划和推理性能。此外,我们认为Trelawney可能为现有的语言建模范式之外的新能力打开大门。