摘要
大型语言模型(LLMs)正越来越多地融入各种日常应用,对这些模型行为的研究也随之激增。然而,由于该领域的新颖性,缺乏清晰的方法学指南。这引发了人们对从 LLM 行为研究中获得的见解的可重复性和普遍性的担忧。在本研究中,我们讨论了复制危机的潜在风险,并通过一系列复制实验来支持我们的担忧,这些实验侧重于旨在影响 LLM 推理能力的提示工程技术。我们使用手动双重检查的推理基准子集(包括 CommonsenseQA、CRT、NumGLUE、ScienceQA 和 StrategyQA),对 GPT-3.5、GPT-4o、Gemini 1.5 Pro、Claude 3 Opus、Llama 3-8B 和 Llama 3-70B 进行了测试,测试了链式思维、情感提示、专家提示、沙袋以及重新阅读提示工程技术。我们的发现表明,在几乎所有测试的技术中,统计上都没有显著差异,这突出表明了先前研究中存在一些方法学缺陷。我们提出了一种前瞻性方法,包括开发用于评估 LLM 的稳健方法,建立可靠的基准,以及设计严格的实验框架,以确保对模型输出的准确可靠评估。