LLM2D
Infini-gram:将无界n-gram语言模型扩展到万亿令牌
Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens
作者: Jiacheng Liu, Sewon Min, Luke Zettlemoyer, Yejin Choi, Hannaneh Hajishirzi
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2401.17377v4

摘要

arXiv:2401.17377v4 公告类型:替换-交叉 摘要:在这个神经大型语言模型(LLMs)的时代,$n$-gram 语言模型是否依然 relevant?我们的答案是肯定的,并且我们展示了它们在文本分析和提升神经LLMs方面的价值。这是通过在两个方面对$n$-gram模型进行现代化改造来实现的。首先,我们以与神经LLMs相同的数据规模对其进行训练——5万亿个令牌。这是有史以来最大的$n$-gram模型。其次,现有的$n$-gram模型使用较小的$n$,这限制了它们的性能;我们通过引入一个新的带有回退机制的$\infty$-gram模型,允许$n$可以任意大。替代预计算$n$-gram计数表(这将非常昂贵),我们开发了一种名为infini-gram的引擎——它由后缀数组支持,可以以毫秒级延迟计算$\infty$-gram(以及任意$n$的$n$-gram)概率。$\infty$-gram框架和infini-gram引擎使我们能够对人类撰写的和机器生成的文本进行许多新颖而有趣的分析:我们发现,$\infty$-gram模型在下一个标记预测方面具有较高的准确性(47%),并且可以补充神经LLMs以大大降低它们的困惑度。在对机器生成的文本进行分析时,我们还观察到了机器生成文本与$\infty$-gram一致性水平随后缀长度变化的不规则现象,这表明神经LLMs的预训练和Transformer的位置嵌入存在缺陷。