LLM2D
Home
Arxiv
返回列表
大型语言模型基准性能中的基准率效应:区分考试策略与基准性能
The Base-Rate Effect on LLM Benchmark Performance: Disambiguating Test-Taking Strategies from Benchmark Performance
作者:
Kyle Moore, Jesse Roberts, Thao Pham, Oseremhen Ewaleifoh, Doug Fisher
发布日期:
10/1/2024
arXiv ID:
oai:arXiv.org:2406.11634v2
摘要
完形填空测试是衡量大型语言模型在众多基准任务上的行为的一种常用方法。使用 MMLU 数据集,我们表明答案标记之间的基线概率 (BRP) 差异是显著的,并且会影响任务表现,即如果存在不确定性则猜测 A。我们发现反事实提示可以充分缓解 BRP 效应。发现 BRP 效应与人类采用的考试策略有类似的影响,导致任务表现和考试能力的混淆。我们提出了 Nvr-X-MMLU 任务,它是 MMLU 的一个变体,它有助于将考试能力与任务表现区分开来,并报告后者。
查看原文
下载 PDF