LLM2D
当每一个-token 都重要:低资源语言模型的最优分割
When Every Token Counts: Optimal Segmentation for Low-Resource Language Models
作者: Bharath Raj, Garvit Suri, Vikrant Dewangan, Raghav Sonavane
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2412.06926v5

摘要

arXiv:2412.06926v5 公告类型: 替换-交叉 摘要: 传统的贪婪分词方法一直是自然语言处理(NLP)中的一个关键步骤,影响着文本如何转换为标记,直接影响模型性能。虽然字节对编码(BPE)等子词分词器被广泛使用,但对于不同规模的模型和不同语言,它们的最优性仍然存在疑问。在本文中,我们通过广泛的实验表明,最优的BPE配置在分词计数上显著少于贪婪分割,减少了标记数量,并在标记节省百分比和性能方面产生了效益,尤其是在小型模型中。我们在生成和分类等各种内在和外在任务中评估了分词性能。我们的发现表明,压缩优化的分词策略可能为多语言和低资源语言应用提供显著优势,这为未来的研究和包容性NLP指明了一个有前景的方向。