LLM2D
Home
Arxiv
返回列表
Ryu团队提交给2024年SIGMORPHON子词分词共享任务的成果
Team Ryu's Submission to SIGMORPHON 2024 Shared Task on Subword Tokenization
作者:
Zilong Li
发布日期:
10/23/2024
arXiv ID:
oai:arXiv.org:2410.17094v1
摘要
这篇论文提交给已取消的SIGMORPHON 2024子词分词共享任务(Ryu团队),探讨了是否可以将形态切分方法用作子词分词器的一部分。论文采用两种方法:基于统计的切分方法Morfessor和基于Transformer的序列到序列(seq2seq)切分模型。预测结果表明,形态切分方法与常用的子词分词器一样有效。此外,论文还研究了分词器的词汇表如何影响语言模型的性能,发现具有平衡词频分布的分词器往往表现更好,而保持高频词作为唯一词元可以实现平衡的词元词汇表。
查看原文
下载 PDF