摘要
尽管大型语言模型 (LLM) 拥有非凡的能力,但它们对提示的微小变化却出奇地敏感,经常对提示的微小变化(如拼写错误、措辞更改或提示模板)产生显著不同的输出。然而,在评估 LLM 的质量时,人们往往只关注其在下游任务中的表现,而对提示敏感性却很少关注。为了填补这一空白,我们提出了 POSIX——一个新颖的提示敏感性指数,它可以作为提示敏感性的可靠衡量指标,从而提供对 LLM 性能的更全面评估。POSIX 背后的关键思想是捕捉给定响应的 loglikelihood 在用不同的意图保留提示替换相应提示时发生的相对变化。我们提供了充分的经验证据,证明了 POSIX 在捕捉提示敏感性方面的有效性,并随后用它来衡量和比较各种开源 LLM 的提示敏感性。我们发现,仅仅增加参数数量或指令微调并不一定能降低提示敏感性,而添加一些少样本示例,甚至只有一个,几乎总是会导致提示敏感性显著降低。我们还发现,对于 MCQ 类型任务,提示模板的更改会导致最高的敏感性,而对于开放式生成任务,释义会导致最高的敏感性。用于重现我们结果的代码已在 https://github.com/kowndinya-renduchintala/POSIX 上开源。