LLM2D

摘要

自然语言由单词构成，但现代大型语言模型 (LLM) 以子词作为输入进行处理。这种差异引出一个自然问题：LLM 是否在内部编码单词，如果是，它们是如何编码的？我们提供证据表明，LLM 参与了一种内在的去标记化过程，其中子词序列被组合成连贯的词表示。我们的实验表明，这个过程主要发生在模型的早期和中间层。它们还表明，它对非形态学分割、拼写错误以及可能重要的是 - 对词汇表外的单词具有鲁棒性：当将这些单词的内部表示作为输入向量馈送到模型时，它可以“理解”它们，尽管在训练期间从未见过它们。我们的发现表明，LLM 维护着超出标记器范围的潜在词汇表。这些见解为扩展预训练模型的词汇表提供了一种实用的、无需微调的应用。通过添加新的词汇表单词，我们减少了输入长度和推理迭代次数，从而降低了空间和模型延迟，而模型准确性几乎没有损失。