LLM2D
LZ正则化:自回归语言模型的信息论重复惩罚
LZ Penalty: An information-theoretic repetition penalty for autoregressive language models
作者: Antonio A. Ginart, Naveen Kodali, Jason Lee, Caiming Xiong, Silvio Savarese, John R. Emmons
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20131v1

摘要

arXiv:2504.20131v1 类型: cross 摘要: 我们引入了LZ惩罚,这是一种专门用于减少自回归语言模型中的退化重复现象而不损失能力的惩罚。该惩罚基于LZ77通用无损压缩算法中的码长。通过预测-压缩二元性的眼光来看,解码LZ惩罚可以被解释为在删除高度可压缩信息后从残差分布中进行采样。我们证明LZ惩罚使最先进的开源推理模型能够在零温度解码下运行,而不会损失能力,也不会出现退化重复现象。行业标准的频率惩罚和重复惩罚均无效,导致高达4%的退化重复率。