LLM2D

摘要

arXiv:2408.04667v3 宣告类型: replace-cross 摘要：大型语言模型（LLM）从业者普遍注意到，在预期为确定性的设定下，对于相同的输入，输出结果会有所不同。然而，这种现象的普遍性及其对结果的影响尚未系统性地进行研究。我们在10次运行中，在零样本和少样本设置下，对五种LLM进行配置，使其在八项常见任务上运行时模拟确定性，并调查了非确定性问题。我们观察到，在自然发生的多次运行中，准确率波动高达15%，最佳表现与最差表现之间的差距最高可达70%。事实上，并没有一种LLM能够在所有任务中稳定地提供一致的准确率，更不用说一致的输出字符串了。与内部人员分享初步结果表明，非确定性可能是通过混合输入缓冲区数据来高效利用计算资源的关键，因此这个问题并不会很快得到解决。为了更好地量化我们的观察结果，我们引入了专注于量化确定性的指标：TARr@N（在N次运行中原始输出的总一致率）和TARa@N（解析出的答案的总一致率）。我们的代码和数据可以在http://github.com/REDACTED公开获得。