摘要
arXiv:2504.00178v1 跨语言类型声明
摘要:分词前生成(Pre-tokenization),许多现代分词流水线中的初始步骤,将文本分割成称为预词(pretokens)的较小单元,通常是在空格和标点符号处划分。尽管这一过程鼓励将完整的单独词汇作为词元,但大多数分词算法,如双向编码器表示(BPE),都会引入一个根本性的局限。具体来说,分词前生成导致语料库中的词元分布严重偏向常见的完整词汇。这种偏斜的分布限制了扩展到更大的词汇表所带来的好处,因为额外的词元出现的频率逐渐降低。为了克服这一障碍,我们提出了一种修改后的 BPE 算法 BoundlessBPE,放松了预词边界约束。我们的方法有选择地将两个完整的预词合并为一个更大的单位,我们称之为超词(superword)。超词不一定具有语义一致性。例如,预词 " of" 和 " the" 可能会被合并成超词 " of the"。这种合并策略相较于标准 BPE 能够在语料库中获得显著更均匀的词元分布,并更有效地压缩文本,文本每个词元的字节数大约增加 20%。