LLM2D

摘要

分词是自然语言处理 (NLP) 任务中的一个基础步骤，它连接了原始文本和语言模型。现有的分词方法，如字节对编码 (BPE)，起源于数据压缩领域，并且有人认为 BPE 的有效性源于它将文本压缩成相对较少数量的标记的能力。我们通过引入 PathPiece，一个新的分词器，它将文档的文本分割成给定词汇表所需的最小数量的标记，来检验较少标记会导致更好的下游性能的假设。通过广泛的实验，我们发现这个假设并不成立，这让人对有效分词原因的理解产生了怀疑。为了检验哪些其他因素起作用，我们评估了分词所有三个阶段的设计决策：预分词、词汇构建和分割，为有效分词器的设计提供了新的见解。具体来说，我们说明了预分词的重要性以及使用 BPE 初始化词汇构建的好处。我们训练了 64 个具有不同分词的语言模型，其大小从 3.5 亿到 24 亿个参数不等，所有这些模型都已公开发布。