LLM2D

摘要

arXiv:2504.20131v1 类型: cross 摘要: 我们引入了LZ惩罚，这是一种专门用于减少自回归语言模型中的退化重复现象而不损失能力的惩罚。该惩罚基于LZ77通用无损压缩算法中的码长。通过预测-压缩二元性的眼光来看，解码LZ惩罚可以被解释为在删除高度可压缩信息后从残差分布中进行采样。我们证明LZ惩罚使最先进的开源推理模型能够在零温度解码下运行，而不会损失能力，也不会出现退化重复现象。行业标准的频率惩罚和重复惩罚均无效，导致高达4%的退化重复率。