LLM2D

摘要

针对指令微调的大型语言模型 (LLMs) 的研究，使用基于文本重叠和 LLM 判断的自动方法作为对人工评估的经济高效替代方案。本文对这些方法进行了元评估，并评估了它们在广泛任务中的可靠性。在评估自动方法与人工评估的一致性方面，相关性指标是最常用的方法，尽管它们在处理平局和不同尺度时存在固有的局限性。为了解决这些缺点，我们使用成对准确率作为标准相关性度量的替代方法。我们观察到，虽然自动评估方法可以在特定条件下近似人工评分，但它们的有效性高度依赖于上下文。具体来说，简单的 ROUGE-L 指标与人类评分在简答英文任务中高度相关，但在自由生成任务和跨语言场景中不可靠。如果提示中不包含参考答案，使用 GPT-4 作为评判者的更高级方法的有效性会显著降低，而这正是该方法与其他指标相比可能提供最大价值的场景。我们的发现增强了对在开发和评估指令微调 LLM 时如何应用和解释自动方法的理解。