LLM2D
指令微调大型语言模型的自动评估方法可靠吗?
How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs?
作者: Ehsan Doostmohammadi, Oskar Holmstr\"om, Marco Kuhlmann
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2402.10770v4

摘要

针对指令微调的大型语言模型 (LLMs) 的研究,使用基于文本重叠和 LLM 判断的自动方法作为对人工评估的经济高效替代方案。本文对这些方法进行了元评估,并评估了它们在广泛任务中的可靠性。在评估自动方法与人工评估的一致性方面,相关性指标是最常用的方法,尽管它们在处理平局和不同尺度时存在固有的局限性。为了解决这些缺点,我们使用成对准确率作为标准相关性度量的替代方法。我们观察到,虽然自动评估方法可以在特定条件下近似人工评分,但它们的有效性高度依赖于上下文。具体来说,简单的 ROUGE-L 指标与人类评分在简答英文任务中高度相关,但在自由生成任务和跨语言场景中不可靠。如果提示中不包含参考答案,使用 GPT-4 作为评判者的更高级方法的有效性会显著降低,而这正是该方法与其他指标相比可能提供最大价值的场景。我们的发现增强了对在开发和评估指令微调 LLM 时如何应用和解释自动方法的理解。