摘要
arXiv:2502.00894v1 宣布类型: cross
摘要:分词是自然语言处理(NLP)的基础,直接影响模型效率和语义准确性。尽管字节对编码(BPE)在大型语言模型(LLMs)中被广泛使用,但它往往忽略了形态学边界,导致分词次优,特别是在形态学丰富的语言中。我们介绍了MorphBPE,这是一种形态学意识的BPE扩展,将语言结构整合到子词分词中,同时保持统计效率。此外,我们提出了两个基于形态学的评估指标:(i)形态一致性F1分数,它量化了形态共享与分词共享之间的一致性,有助于LLM训练收敛,以及(ii)形态编辑距离,它衡量了形态学与分词在可解释性方面的对齐情况。在参数量为300M和1B的英语、俄语、匈牙利语和阿拉伯语的LLM上进行的实验表明,MorphBPE一致地减少了交叉熵损失,加速了收敛,并提高了形态学对齐得分。MorphBPE完全兼容现有的LLM管道,集成时所需修改很少。MorphBPE代码库和分词器游乐场可在以下链接访问:https://github.com/llm-lab-org/MorphBPE 和 https://tokenizer.llm-lab.org