LLM2D

摘要

arXiv:2412.06926v5 公告类型: 替换-交叉摘要: 传统的贪婪分词方法一直是自然语言处理（NLP）中的一个关键步骤，影响着文本如何转换为标记，直接影响模型性能。虽然字节对编码（BPE）等子词分词器被广泛使用，但对于不同规模的模型和不同语言，它们的最优性仍然存在疑问。在本文中，我们通过广泛的实验表明，最优的BPE配置在分词计数上显著少于贪婪分割，减少了标记数量，并在标记节省百分比和性能方面产生了效益，尤其是在小型模型中。我们在生成和分类等各种内在和外在任务中评估了分词性能。我们的发现表明，压缩优化的分词策略可能为多语言和低资源语言应用提供显著优势，这为未来的研究和包容性NLP指明了一个有前景的方向。