LLM2D
BETO 语言模型中使用的词语子词词汇的形态学评估
Morphological evaluation of subwords vocabulary used by BETO language model
作者: \'Oscar Garc\'ia-Sierra, Ana Fern\'andez-Pampill\'on Cesteros, Miguel Ortega-Mart\'in
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02283v1

摘要

大型语言模型使用的子词标记化算法效率更高,能够在没有人为干预的情况下独立构建必要的词语和子词词汇表。然而,这些子词并不总是与真实的语素相一致,可能会影响模型的性能,尽管何时会发生这种情况尚不确定。在之前的研究中,我们提出了一种评估词汇表形态质量的方法,重点关注这些词汇表与给定语言的语素之间的重叠。我们的评估方法建立在三个质量指标之上:相关性、凝聚力和形态准确性,以及它们的评估程序。通过将该方法应用于三种子词标记化算法(BPE、Wordpiece 和 Unigram)创建的词汇表,我们得出结论,这些词汇表通常表现出非常低的形态质量。在本文中,我们对 BETO(一个在大型西班牙语语料库上训练的 BERT 语言模型)的标记器进行了评估。此次评估以及我们之前的研究结果帮助我们得出结论,其词汇表具有较低的形态质量,并且我们还发现,在更大的语料库中训练标记器并不能提高生成的词汇表的形态质量。此外,此次评估有助于澄清标记器使用的算法,即 Wordpiece,因为作者的声明与模型的配置之间存在不一致。