LLM2D

摘要

arXiv:2502.00894v1 宣布类型: cross 摘要：分词是自然语言处理（NLP）的基础，直接影响模型效率和语义准确性。尽管字节对编码（BPE）在大型语言模型（LLMs）中被广泛使用，但它往往忽略了形态学边界，导致分词次优，特别是在形态学丰富的语言中。我们介绍了MorphBPE，这是一种形态学意识的BPE扩展，将语言结构整合到子词分词中，同时保持统计效率。此外，我们提出了两个基于形态学的评估指标：（i）形态一致性F1分数，它量化了形态共享与分词共享之间的一致性，有助于LLM训练收敛，以及（ii）形态编辑距离，它衡量了形态学与分词在可解释性方面的对齐情况。在参数量为300M和1B的英语、俄语、匈牙利语和阿拉伯语的LLM上进行的实验表明，MorphBPE一致地减少了交叉熵损失，加速了收敛，并提高了形态学对齐得分。MorphBPE完全兼容现有的LLM管道，集成时所需修改很少。MorphBPE代码库和分词器游乐场可在以下链接访问：https://github.com/llm-lab-org/MorphBPE 和 https://tokenizer.llm-lab.org