LLM2D
语言模型行为评估中的复制危机迫在眉睫?证据与解决方案
A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions
作者: Laur\`ene Vaugrante, Mathias Niepert, Thilo Hagendorff
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.20303v1

摘要

大型语言模型(LLMs)正越来越多地融入各种日常应用,对这些模型行为的研究也随之激增。然而,由于该领域的新颖性,缺乏清晰的​​方法学指南。这引发了人们对从 LLM 行为研究中获得的见解的可重复性和普遍性的担忧。在本研究中,我们讨论了复制危机的潜在风险,并通过一系列复制实验来支持我们的担忧,这些实验侧重于旨在影响 LLM 推理能力的提示工程技术。我们使用手动双重检查的推理基准子集(包括 CommonsenseQA、CRT、NumGLUE、ScienceQA 和 StrategyQA),对 GPT-3.5、GPT-4o、Gemini 1.5 Pro、Claude 3 Opus、Llama 3-8B 和 Llama 3-70B 进行了测试,测试了链式思维、情感提示、专家提示、沙袋以及重新阅读提示工程技术。我们的发现表明,在几乎所有测试的技术中,统计上都没有显著差异,这突出表明了先前研究中存在一些方法学缺陷。我们提出了一种前瞻性方法,包括开发用于评估 LLM 的稳健方法,建立可靠的基准,以及设计严格的实验框架,以确保对模型输出的准确可靠评估。