LLM2D

摘要

本文研究了 N-gram 模型和大型预训练多语言模型在 11 种南非语言的语言识别 (LID) 中的应用。对于 N-gram 模型，本研究表明，有效的数据量选择对于建立目标语言的有效频率分布至关重要，这些频率分布可以有效地对每种语言进行建模，从而提高语言排名。对于预训练的多语言模型，我们进行了广泛的实验，涵盖了一组多样化的大规模预训练多语言 (PLM) 模型——mBERT、RemBERT、XLM-r 和非洲中心多语言模型——AfriBERTa、Afro-XLMr、AfroLM 和 Serengeti。我们进一步将这些模型与现有的大型语言识别工具（Compact Language Detector v3 (CLD V3)、AfroLID、GlotLID 和 OpenLID）进行比较，以突出强调基于重点的 LID 的重要性。从这些比较中，我们发现 Serengeti 在所有模型中（从 N-gram 到 Transformers）表现出色。此外，我们提出了一种基于轻量级 BERT 的 LID 模型 (za_BERT_lid)，该模型使用 NHCLT + Vukzenzele 语料库进行训练，其性能与我们表现最好的非洲中心模型相当。