LLM2D

摘要

大型语言模型（LLMs）正越来越多地融入各种日常应用，对这些模型行为的研究也随之激增。然而，由于该领域的新颖性，缺乏清晰的方法学指南。这引发了人们对从 LLM 行为研究中获得的见解的可重复性和普遍性的担忧。在本研究中，我们讨论了复制危机的潜在风险，并通过一系列复制实验来支持我们的担忧，这些实验侧重于旨在影响 LLM 推理能力的提示工程技术。我们使用手动双重检查的推理基准子集（包括 CommonsenseQA、CRT、NumGLUE、ScienceQA 和 StrategyQA），对 GPT-3.5、GPT-4o、Gemini 1.5 Pro、Claude 3 Opus、Llama 3-8B 和 Llama 3-70B 进行了测试，测试了链式思维、情感提示、专家提示、沙袋以及重新阅读提示工程技术。我们的发现表明，在几乎所有测试的技术中，统计上都没有显著差异，这突出表明了先前研究中存在一些方法学缺陷。我们提出了一种前瞻性方法，包括开发用于评估 LLM 的稳健方法，建立可靠的基准，以及设计严格的实验框架，以确保对模型输出的准确可靠评估。