摘要
arXiv:2408.04667v5 通告类型: replace-cross
摘要:大规模语言模型(LLM) practitioners 通常注意到,在预期为确定性的设置中,对相同的输入,输出可能会有所不同。然而,这种情况的普遍性以及对其结果的影响尚未系统地进行过研究。我们在这项研究中,在10次运行中,分别在零样本和少量样本设置下,将五种LLM配置为在八种常见任务上执行,并调查了它们的非确定性。我们观察到,在自然运行中,精度变异高达15%,从最佳可能性能到最差可能性能的最大差距达到70%。实际上,没有一种LLM在所有任务上都能始终如一地提供可重复的准确性,更不用说提供完全相同的输出字符串了。与内定人员分享初步结果后发现,非确定性也许是通过在输入缓冲区中混合数据来高效利用计算资源所必不可少的,因此这一问题不会很快消失。为了更好地量化我们的观察结果,我们引入了旨在量化确定性的指标,包括TARr@N(N次运行的原始输出总一致率)和TARa@N(解析答案的总一致率)。我们的代码和数据可在 https://github.com/breckbaldwin/llm-stability 公开获取。