LLM2D
基于大型语言模型的评判方法综述
A Survey on LLM-as-a-Judge
作者: Jiawei Gu, Xuhui Jiang, Zhichao Shi, Hexiang Tan, Xuehao Zhai, Chengjin Xu, Wei Li, Yinghan Shen, Shengjie Ma, Honghao Liu, Yuanzhuo Wang, Jian Guo
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15594v1

摘要

准确一致的评估对于众多领域的决策至关重要,然而由于固有的主观性、变异性和规模性,这仍然是一项具有挑战性的任务。大型语言模型 (LLM) 已在各个领域取得了显著成功,导致出现了“LLM 作为评判者”的现象,其中 LLM 被用作复杂任务的评估者。凭借其处理多种数据类型并提供可扩展、经济高效且一致的评估的能力,LLM 为传统的专家驱动评估提供了一种引人注目的替代方案。然而,确保“LLM 作为评判者”系统的可靠性仍然是一项重大挑战,需要仔细的设计和标准化。本文对“LLM 作为评判者”进行了全面的综述,探讨了核心问题:如何构建可靠的“LLM 作为评判者”系统?我们探索了提高可靠性的策略,包括提高一致性、减轻偏差以及适应不同的评估场景。此外,我们提出了评估“LLM 作为评判者”系统可靠性的方法,并为此目的设计了一个新的基准。为了推进“LLM 作为评判者”系统的开发和实际部署,我们还讨论了实际应用、挑战和未来方向。本综述为这一快速发展领域的科研人员和实践者提供了基础性参考。