LLM2D

摘要

自然语言由单词构成，但现代大型语言模型 (LLM) 以子词作为输入进行处理。这种差异引发了一个自然的问题：LLM 是否在内部编码单词，如果是，如何编码？我们提供的证据表明，LLM 参与了一种内在的去标记化过程，其中子词序列被组合成连贯的词表示。我们的实验表明，此过程主要发生在模型的早期和中间层。它们还表明，该过程对非形态词分割、错别字以及——也许更重要的是——对不在词汇表中的单词具有鲁棒性：当将此类单词的内部表示作为输入向量馈送到模型时，即使在训练期间从未见过这些单词，它也能“理解”它们。我们的发现表明，LLM 保持着超出标记器范围的潜在词汇表。这些见解为扩展预训练模型的词汇表提供了一种实用的、无需微调的应用。通过添加新的词汇表单词，我们减少了输入长度和推理迭代次数，从而减少了空间和模型延迟，而模型精度几乎没有损失或根本没有损失。