摘要
arXiv:2412.06926v5 公告类型: 替换-交叉
摘要: 传统的贪婪分词方法一直是自然语言处理(NLP)中的一个关键步骤,影响着文本如何转换为标记,直接影响模型性能。虽然字节对编码(BPE)等子词分词器被广泛使用,但对于不同规模的模型和不同语言,它们的最优性仍然存在疑问。在本文中,我们通过广泛的实验表明,最优的BPE配置在分词计数上显著少于贪婪分割,减少了标记数量,并在标记节省百分比和性能方面产生了效益,尤其是在小型模型中。我们在生成和分类等各种内在和外在任务中评估了分词性能。我们的发现表明,压缩优化的分词策略可能为多语言和低资源语言应用提供显著优势,这为未来的研究和包容性NLP指明了一个有前景的方向。