LLM2D

摘要

大型语言模型 (LLM) 的文本解码是感知 LLM 质量的关键组成部分。我们通过两个实验表明，通过对词元概率进行操作可以改进解码方法。首先，我们在 SummEval 摘要评分数据集上测试了几个 LLM，以衡量阅读理解能力。我们比较了贪婪解码的得分与下一个词元分布的期望值。我们通过较大的温度对 logits 进行缩放，以增加得分的熵。这使得 SummEval 的性能得到显著提升（在与人类判断的相关性方面）。我们看到 7B Mistral 的性能从 6-8% 提高到 13-28%，Mixtral 的性能从 20%-46% 提高到 37%-56%，在两个指标上都超过了 GPT 4 0314 的结果。部分收益似乎与位置偏差有关。其次，我们使用基于概率的树采样算法，来检查给定提示的所有最可能的生成结果。