LLM2D

摘要

本文探讨了对大型语言模型 (LLM) 能力的评估。我们展示了 GPT-4 在几个确定性任务上的性能测量结果；每个任务都涉及一个基本计算，并以从一个大型定义明确的总体中抽取的某个元素作为输入参数（例如，计算列表中的元素数量，将两个 k 位数相乘等）。我们针对每个任务检查了几个条件，并进行了足够的试验，以便能够检测到统计学上的显著差异。这使我们能够研究任务准确性对查询措辞和输入参数总体的敏感性。我们发现，任务提示或输入总体中看似微不足道的修改会导致差异远远大于抽样效应所能解释的范围。例如，在简单的列表计数任务上的性能会随着查询措辞和列表长度而变化，但也会随着列表组成（即要计数的项目）和对象频率而变化（例如，当一个元素占列表的 $\approx$ 50% 时，与它占 $\approx$ 70% 时相比，成功率不同）。我们得出结论，量化 LLM 能力的努力很容易屈服于语言固定效应谬误，在这种谬误中，实验观察结果被不当地推广到数据所支持的范围之外。一个后果似乎是，基于与人类交互而形成的直觉，对于哪些输入修改应该“对 LLM 性能没有影响”，提供了一个非常不可靠的指导。