摘要
自然语言由单词构成,但现代大型语言模型 (LLM) 以子词作为输入进行处理。这种差异引发了一个自然的问题:LLM 是否在内部编码单词,如果是,如何编码?我们提供的证据表明,LLM 参与了一种内在的去标记化过程,其中子词序列被组合成连贯的词表示。我们的实验表明,此过程主要发生在模型的早期和中间层。它们还表明,该过程对非形态词分割、错别字以及——也许更重要的是——对不在词汇表中的单词具有鲁棒性:当将此类单词的内部表示作为输入向量馈送到模型时,即使在训练期间从未见过这些单词,它也能“理解”它们。我们的发现表明,LLM 保持着超出标记器范围的潜在词汇表。这些见解为扩展预训练模型的词汇表提供了一种实用的、无需微调的应用。通过添加新的词汇表单词,我们减少了输入长度和推理迭代次数,从而减少了空间和模型延迟,而模型精度几乎没有损失或根本没有损失。