摘要
arXiv:2505.09738v1 宣告类型: cross
摘要:预训练语言模型(大语言模型,LLMs)常常受限于固定的分词方案,导致效率低下和性能限制,尤其是在多语言或特定应用方面。这种分词锁定提出了重大挑战。克服这一问题的标准方法通常需要大量的计算资源。尽管使用启发式初始化进行分词替换旨在减轻这一负担,但现有方法往往需要详尽的残差微调,而且可能无法完全保留语义细微差别或充分解决潜在的压缩效率低下问题。我们的框架引入了两项创新:首先,Tokenadapt,一种模型无关的分词移植方法;其次,用于多词Supertokens的新型预分词学习,以增强压缩并减少碎片化。Tokenadapt 通过结合两种方法的混合启发式方法初始化新的唯一词嵌入:基于旧分词器进行子词分解的局部估计,以及利用原始词汇表中 top-k 语义上最相似的词的全局估计。这种方法旨在保留语义的同时显著减少重新训练需求。实证研究验证了两个贡献:移植启发式成功初始化了独特的词,显著优于传统的基线方法以及包括Transtokenizer和ReTok在内的复杂方法,而我们的Supertokens实现了显著的压缩收益。我们的零样本困惑度结果表明,TokenAdapt 混合初始化在不同基础模型和新训练的目标分词器上始终比ReTok和TransTokenizer基线模型产生了更低的困惑度比率。TokenAdapt 通常显著降低了整体困惑度比率,相对于ReTok,至少提高了这些总分的两倍。