LLM2D

摘要

完形填空测试是衡量大型语言模型在众多基准任务上的行为的一种常用方法。使用 MMLU 数据集，我们表明答案标记之间的基线概率 (BRP) 差异是显著的，并且会影响任务表现，即如果存在不确定性则猜测 A。我们发现反事实提示可以充分缓解 BRP 效应。发现 BRP 效应与人类采用的考试策略有类似的影响，导致任务表现和考试能力的混淆。我们提出了 Nvr-X-MMLU 任务，它是 MMLU 的一个变体，它有助于将考试能力与任务表现区分开来，并报告后者。