LLM2D
大型语言模型在印度官方语言中的分词器性能评估
Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages
作者: S. Tamang, D. J. Bora
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2411.12240v2

摘要

基于Transformer架构的大型语言模型 (LLM) 彻底改变了多个领域,其中分词在其预处理和微调阶段发挥着关键作用。在多语言模型中,特别是针对印地语系语言的模型,有效的分词对于优化性能至关重要。本文对12个大型语言模型在印度所有22种官方语言中使用的分词器进行了全面评估,重点比较了其分词过程的效率。我们采用归一化序列长度 (NSL) 作为分析的关键指标。我们的研究结果表明,SUTRA分词器优于所有其他模型,包括几种针对印地语系语言的模型,在14种语言中表现出色。值得注意的见解包括:SUTRA分词器在处理印地语系语言方面的优越性;GPT-4o在处理印度语言方面比其前身GPT-4有所改进;以及Project Indus在某些语言中的性能有限。这项研究强调了为多语言和印地语系语言中心模型开发有针对性的分词策略的重要性,为未来改进分词器设计以增强语言覆盖范围和模型效率奠定了基础。