LLM2D

摘要

arXiv:2410.20771v3 宣告类型: replace-cross 摘要: 依赖于子词分词的模型存在重大缺陷，例如对字符级噪声（如拼写错误）的敏感性以及不同语言和文字系统的压缩率不一致。虽然像ByT5这样的字符级或字节级模型试图解决这些问题，但它们并没有广泛采用——在不进行分词处理原始字节流的情况下，会导致显著增加的序列长度，使得训练和推断效率低下。本文介绍了MrT5（MergeT5），这是ByT5的一个更有效的变体，在其编码器中集成了一个令牌删除机制，以动态缩短输入序列长度。经过固定数量的编码器层处理后，一个学习得到的删除门控确定哪些令牌将被删除，哪些将被保留用于后续层。MrT5有效地“合并”来自被删除令牌的关键信息到一个更紧凑的序列中，依赖于剩余令牌的上下文信息。在持续的预训练实验中，我们发现MrT5可以在最小影响性能（以字节/字节为单位衡量）的情况下，实现显著的推理运行时提升。此外，通过多语言训练，MrT5适应每种语言的拼写特征，学习特定于语言的压缩率。进一步而言，在下游评估任务如XNLI、TyDi QA以及字符级任务中，MrT5显示出了与ByT5相当的准确率，同时将序列长度减少多达75%。我们的方法为现有字节级模型的实际限制提供了解决方案。