LLM2D
代币化的基本原理:统计和计算方面的关注点
The Foundations of Tokenization: Statistical and Computational Concerns
作者: Juan Luis Gastaldi, John Terilla, Luca Malagutti, Brian DuSell, Tim Vieira, Ryan Cotterell
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2407.11606v4

摘要

arXiv:2407.11606v4 宣告类型: replace-cross 摘要:分词 - 将字母表中的字符字符串转换为词汇表上的一系列令牌的过程 - 是自然语言处理(NLP)管道中的关键步骤。分词表示的使用被广泛认为能够提高模型性能,但也可能导致许多不希望的行为,如虚假的歧义或不一致性。尽管分词作为NLP中的一种标准表示方法被广泛认可,但其理论基础尚未完全阐明。特别是,关于分词对语言模型估计影响的研究主要通过实证手段进行。本文通过提出一个统一的形式化框架来表示和分析分词器模型,旨在弥补这一理论空白。基于随机映射类别,该框架使我们能够确立分词器规范化使用的通用条件,并最重要的是,确定分词器模型能够保留统计估计器一致性的必要和充分条件。此外,本文还讨论了设计和实现分词器模型时至关重要的统计和计算问题,如不一致性、歧义、有限性和序列性。本文提出的方法和结果为神经语言建模中表示的稳健理论基础奠定了基石,并可以指导未来理论和实证研究的发展。