LLM2D
生成式大型语言模型中词元概率分布中的未利用信息:通过计算期望值来提升大型语言模型的阅读理解能力
Unused information in token probability distribution of generative LLM: improving LLM reading comprehension through calculation of expected values
作者: Krystian Zawistowski
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2406.10267v2

摘要

大型语言模型 (LLM) 的文本解码是感知 LLM 质量的关键组成部分。我们通过两个实验表明,通过对词元概率进行操作可以改进解码方法。首先,我们在 SummEval 摘要评分数据集上测试了几个 LLM,以衡量阅读理解能力。我们比较了贪婪解码的得分与下一个词元分布的期望值。我们通过较大的温度对 logits 进行缩放,以增加得分的熵。这使得 SummEval 的性能得到显著提升(在与人类判断的相关性方面)。我们看到 7B Mistral 的性能从 6-8% 提高到 13-28%,Mixtral 的性能从 20%-46% 提高到 37%-56%,在两个指标上都超过了 GPT 4 0314 的结果。部分收益似乎与位置偏差有关。其次,我们使用基于概率的树采样算法,来检查给定提示的所有最可能的生成结果。