LLM2D

摘要

尽管大型语言模型 (LLM) 拥有非凡的能力，但它们对提示的微小变化却出奇地敏感，经常对提示的微小变化（如拼写错误、措辞更改或提示模板）产生显著不同的输出。然而，在评估 LLM 的质量时，人们往往只关注其在下游任务中的表现，而对提示敏感性却很少关注。为了填补这一空白，我们提出了 POSIX——一个新颖的提示敏感性指数，它可以作为提示敏感性的可靠衡量指标，从而提供对 LLM 性能的更全面评估。POSIX 背后的关键思想是捕捉给定响应的 loglikelihood 在用不同的意图保留提示替换相应提示时发生的相对变化。我们提供了充分的经验证据，证明了 POSIX 在捕捉提示敏感性方面的有效性，并随后用它来衡量和比较各种开源 LLM 的提示敏感性。我们发现，仅仅增加参数数量或指令微调并不一定能降低提示敏感性，而添加一些少样本示例，甚至只有一个，几乎总是会导致提示敏感性显著降低。我们还发现，对于 MCQ 类型任务，提示模板的更改会导致最高的敏感性，而对于开放式生成任务，释义会导致最高的敏感性。用于重现我们结果的代码已在 https://github.com/kowndinya-renduchintala/POSIX 上开源。