LLM2D

摘要

在本研究中，我们实证地研究了采样温度对大型语言模型 (LLM) 在各种问题解决任务中的性能的影响。我们通过从标准 LLM 基准中随机抽取问题创建了一个多项选择问答 (MCQA) 考试。然后，我们使用九种流行的 LLM 和五种提示工程技术来解决 MCQA 问题，同时将采样温度从 0.0 提高到 1.6。尽管有轶事报道与之相反，但我们的实证结果表明，温度从 0.0 到 1.0 的变化对 LLM 在问题解决任务中的性能没有统计学上的显著影响。此外，这些结果似乎在 LLM、提示工程技术和问题领域之间具有普遍性。所有代码、数据和补充材料都可以在 GitHub 上获取：https://github.com/matthewrenze/jhu-llm-temperature