LLM2D

摘要

大型语言模型 (LLMs) 在包括数学、物理和化学在内的各种科学任务中展现出令人印象深刻的能力。尽管取得了成功，但 LLMs 在处理复杂统计任务方面的有效性仍然系统性地未得到充分探索。为了弥合这一差距，我们引入了 StatQA，这是一个为统计分析任务而设计的新基准。StatQA 包含 11,623 个示例，旨在评估 LLMs 在专门的统计任务中的熟练程度及其适用性评估能力，特别是针对假设检验方法。我们使用各种提示策略对代表性的 LLMs 进行了系统性实验，结果表明，即使是像 GPT-4o 这样的最先进模型也只能达到 64.83% 的最佳性能，这表明还有很大的改进空间。值得注意的是，虽然开源 LLMs（例如 LLaMA-3）的能力有限，但经过微调的 LLMs 表现出显著的改进，超过了所有基于上下文学习的方法（例如 GPT-4o）。此外，我们的比较人类实验突出了 LLMs 和人类之间错误类型之间惊人的对比：LLMs 主要犯适用性错误，而人类则主要犯统计任务混淆错误。这种差异突出了熟练程度和缺陷的不同领域，表明结合 LLM 和人类专业知识可以带来互补优势，从而促使人们进一步研究它们的协作潜力。我们的源代码和数据可在 https://statqa.github.io/ 获取。