LLM2D
从N元语法到预训练多语言模型的语言识别
From N-grams to Pre-trained Multilingual Models For Language Identification
作者: Thapelo Sindane, Vukosi Marivate
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08728v1

摘要

本文研究了 N-gram 模型和大型预训练多语言模型在 11 种南非语言的语言识别 (LID) 中的应用。对于 N-gram 模型,本研究表明,有效的数据量选择对于建立目标语言的有效频率分布至关重要,这些频率分布可以有效地对每种语言进行建模,从而提高语言排名。对于预训练的多语言模型,我们进行了广泛的实验,涵盖了一组多样化的大规模预训练多语言 (PLM) 模型——mBERT、RemBERT、XLM-r 和非洲中心多语言模型——AfriBERTa、Afro-XLMr、AfroLM 和 Serengeti。我们进一步将这些模型与现有的大型语言识别工具(Compact Language Detector v3 (CLD V3)、AfroLID、GlotLID 和 OpenLID)进行比较,以突出强调基于重点的 LID 的重要性。从这些比较中,我们发现 Serengeti 在所有模型中(从 N-gram 到 Transformers)表现出色。此外,我们提出了一种基于轻量级 BERT 的 LID 模型 (za_BERT_lid),该模型使用 NHCLT + Vukzenzele 语料库进行训练,其性能与我们表现最好的非洲中心模型相当。