摘要
大型语言模型 (LLMs) 在包括数学、物理和化学在内的各种科学任务中展现出令人印象深刻的能力。尽管取得了成功,但 LLMs 在处理复杂统计任务方面的有效性仍然系统性地未得到充分探索。为了弥合这一差距,我们引入了 StatQA,这是一个为统计分析任务而设计的新基准。StatQA 包含 11,623 个示例,旨在评估 LLMs 在专门的统计任务中的熟练程度及其适用性评估能力,特别是针对假设检验方法。我们使用各种提示策略对代表性的 LLMs 进行了系统性实验,结果表明,即使是像 GPT-4o 这样的最先进模型也只能达到 64.83% 的最佳性能,这表明还有很大的改进空间。值得注意的是,虽然开源 LLMs(例如 LLaMA-3)的能力有限,但经过微调的 LLMs 表现出显著的改进,超过了所有基于上下文学习的方法(例如 GPT-4o)。此外,我们的比较人类实验突出了 LLMs 和人类之间错误类型之间惊人的对比:LLMs 主要犯适用性错误,而人类则主要犯统计任务混淆错误。这种差异突出了熟练程度和缺陷的不同领域,表明结合 LLM 和人类专业知识可以带来互补优势,从而促使人们进一步研究它们的协作潜力。我们的源代码和数据可在 https://statqa.github.io/ 获取。