摘要
arXiv:2408.04667v4 宣布类型: replace-cross
摘要:大型语言模型(LLM)从业者通常注意到,在预期为确定性的设置下,相同输入的输出可能会有所不同。然而,这种现象的普遍程度及其对结果的影响尚未系统地进行研究。我们在10次运行中,对五种LLM进行配置,使其在执行八个常见任务时达到确定性状态,分别在零样本和少样本设置下进行调查。我们发现在自然运行中,准确率的变化幅度最高可达15%,最佳性能和最差性能之间的差距可达70%。事实上,在所有任务上稳定地提供可重复的准确率的LLM几乎没有,更不必说相同的输出字符串了。与内部人士分享初步结果后发现,非确定性可能是通过混存输入缓冲中的数据来高效利用计算资源的关键,因此这个问题不会很快消失。为了更好地量化我们的观察结果,我们引入了旨在量化确定性的指标:TARr@N,表示在N次运行中原始输出的总一致率;TARa@N,表示解析出的答案的总一致率。我们的代码和数据可在 http://github.com/REDACTED 公开获取。