LLM2D

摘要

大型语言模型使用的子词标记化算法效率更高，能够在没有人为干预的情况下独立构建必要的词语和子词词汇表。然而，这些子词并不总是与真实的语素相一致，可能会影响模型的性能，尽管何时会发生这种情况尚不确定。在之前的研究中，我们提出了一种评估词汇表形态质量的方法，重点关注这些词汇表与给定语言的语素之间的重叠。我们的评估方法建立在三个质量指标之上：相关性、凝聚力和形态准确性，以及它们的评估程序。通过将该方法应用于三种子词标记化算法（BPE、Wordpiece 和 Unigram）创建的词汇表，我们得出结论，这些词汇表通常表现出非常低的形态质量。在本文中，我们对 BETO（一个在大型西班牙语语料库上训练的 BERT 语言模型）的标记器进行了评估。此次评估以及我们之前的研究结果帮助我们得出结论，其词汇表具有较低的形态质量，并且我们还发现，在更大的语料库中训练标记器并不能提高生成的词汇表的形态质量。此外，此次评估有助于澄清标记器使用的算法，即 Wordpiece，因为作者的声明与模型的配置之间存在不一致。