摘要
分词是自然语言处理 (NLP) 任务中的一个基础步骤,它连接了原始文本和语言模型。现有的分词方法,如字节对编码 (BPE),起源于数据压缩领域,并且有人认为 BPE 的有效性源于它将文本压缩成相对较少数量的标记的能力。我们通过引入 PathPiece,一个新的分词器,它将文档的文本分割成给定词汇表所需的最小数量的标记,来检验较少标记会导致更好的下游性能的假设。通过广泛的实验,我们发现这个假设并不成立,这让人对有效分词原因的理解产生了怀疑。为了检验哪些其他因素起作用,我们评估了分词所有三个阶段的设计决策:预分词、词汇构建和分割,为有效分词器的设计提供了新的见解。具体来说,我们说明了预分词的重要性以及使用 BPE 初始化词汇构建的好处。我们训练了 64 个具有不同分词的语言模型,其大小从 3.5 亿到 24 亿个参数不等,所有这些模型都已公开发布。