摘要
arXiv:2410.20771v3 宣告类型: replace-cross
摘要: 依赖于子词分词的模型存在重大缺陷,例如对字符级噪声(如拼写错误)的敏感性以及不同语言和文字系统的压缩率不一致。虽然像ByT5这样的字符级或字节级模型试图解决这些问题,但它们并没有广泛采用——在不进行分词处理原始字节流的情况下,会导致显著增加的序列长度,使得训练和推断效率低下。本文介绍了MrT5(MergeT5),这是ByT5的一个更有效的变体,在其编码器中集成了一个令牌删除机制,以动态缩短输入序列长度。经过固定数量的编码器层处理后,一个学习得到的删除门控确定哪些令牌将被删除,哪些将被保留用于后续层。MrT5有效地“合并”来自被删除令牌的关键信息到一个更紧凑的序列中,依赖于剩余令牌的上下文信息。在持续的预训练实验中,我们发现MrT5可以在最小影响性能(以字节/字节为单位衡量)的情况下,实现显著的推理运行时提升。此外,通过多语言训练,MrT5适应每种语言的拼写特征,学习特定于语言的压缩率。进一步而言,在下游评估任务如XNLI、TyDi QA以及字符级任务中,MrT5显示出了与ByT5相当的准确率,同时将序列长度减少多达75%。我们的方法为现有字节级模型的实际限制提供了解决方案。