LLM2D

摘要

arXiv:2504.00178v1 跨语言类型声明摘要：分词前生成（Pre-tokenization），许多现代分词流水线中的初始步骤，将文本分割成称为预词（pretokens）的较小单元，通常是在空格和标点符号处划分。尽管这一过程鼓励将完整的单独词汇作为词元，但大多数分词算法，如双向编码器表示（BPE），都会引入一个根本性的局限。具体来说，分词前生成导致语料库中的词元分布严重偏向常见的完整词汇。这种偏斜的分布限制了扩展到更大的词汇表所带来的好处，因为额外的词元出现的频率逐渐降低。为了克服这一障碍，我们提出了一种修改后的 BPE 算法 BoundlessBPE，放松了预词边界约束。我们的方法有选择地将两个完整的预词合并为一个更大的单位，我们称之为超词（superword）。超词不一定具有语义一致性。例如，预词 " of" 和 " the" 可能会被合并成超词 " of the"。这种合并策略相较于标准 BPE 能够在语料库中获得显著更均匀的词元分布，并更有效地压缩文本，文本每个词元的字节数大约增加 20%。