LLM2D

摘要

尽管拥有非凡的能力，大型语言模型（LLMs）却对提示的细微变化异常敏感，经常会在提示发生细微变化时产生显著不同的输出，例如拼写错误、措辞更改或提示模板的改变。然而，在评估 LLM 的质量时，人们往往只关注其在下游任务中的表现，而对提示敏感性却很少关注。为了填补这一空白，我们提出了 POSIX——一个新的提示敏感性指数，作为衡量提示敏感性的可靠指标，从而提供对 LLM 性能的更全面评估。POSIX 背后的关键思想是捕捉给定响应的对数似然在用不同的意图保留提示替换相应提示时的相对变化。我们提供了充分的经验证据，证明了 POSIX 在捕捉提示敏感性方面的有效性，并随后用它来衡量和比较各种开源 LLM 的提示敏感性。我们发现，仅仅增加参数数量或指令调整并不一定能降低提示敏感性，而添加一些少样本示例，即使只有一个，几乎总是会导致提示敏感性显著下降。我们还发现，在 MCQ 类型任务中，对提示模板的更改会导致最高的敏感性，而在开放式生成任务中，释义会导致最高的敏感性。用于重现我们结果的代码已在 https://github.com/kowndinyarenduchintala/POSIX 上开源。