LLM2D
Ryu团队提交给2024年SIGMORPHON子词分词共享任务的成果
Team Ryu's Submission to SIGMORPHON 2024 Shared Task on Subword Tokenization
作者: Zilong Li
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.17094v1

摘要

这篇论文提交给已取消的SIGMORPHON 2024子词分词共享任务(Ryu团队),探讨了是否可以将形态切分方法用作子词分词器的一部分。论文采用两种方法:基于统计的切分方法Morfessor和基于Transformer的序列到序列(seq2seq)切分模型。预测结果表明,形态切分方法与常用的子词分词器一样有效。此外,论文还研究了分词器的词汇表如何影响语言模型的性能,发现具有平衡词频分布的分词器往往表现更好,而保持高频词作为唯一词元可以实现平衡的词元词汇表。