LLM2D

摘要

大型语言模型（LLM）的自动基准测试，例如AlpacaEval 2.0、Arena-Hard-Auto和MT-Bench，因其相较于人工评估在成本效益和可扩展性方面的优势而日益流行，成为评估语言模型的常用方法。在这些基准测试中取得高胜率可以显著提升新发布语言模型的宣传效果。这种宣传效益可能会促使一些技巧的出现，例如操纵模型输出长度或风格以提高胜率，即使已经开发出多种机制来控制长度和解耦风格以降低可操纵性。然而，我们证明，即使是始终输出恒定响应（与输入指令无关）的“空模型”也能欺骗自动基准测试并获得顶级胜率：在AlpacaEval 2.0上获得86.5%的LC胜率；在Arena-Hard-Auto上获得83.0分；在MT-Bench上获得9.55分。此外，精心设计的作弊输出具有可迁移性，因为我们假设这些基准测试的指令（例如，AlpacaEval 2.0的805个样本）是私有的，无法访问。虽然我们的实验主要属于概念验证，但对手可以使用LLM生成更难以察觉的作弊响应，从而不道德地从高胜率和宣传效益中获益。我们的研究结果呼吁开发反作弊机制，以确保自动基准测试的可靠性。代码可在https://github.com/sail-sg/Cheating-LLM-Benchmarks获取。