LLM2D
LLM-as-a-Judge概览
A Survey on LLM-as-a-Judge
作者: Jiawei Gu, Xuhui Jiang, Zhichao Shi, Hexiang Tan, Xuehao Zhai, Chengjin Xu, Wei Li, Yinghan Shen, Shengjie Ma, Honghao Liu, Saizhuo Wang, Kun Zhang, Yuanzhuo Wang, Wen Gao, Lionel Ni, Jian Guo
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2411.15594v4

摘要

arXiv:2411.15594v4 宣布类型: replace-cross 摘要:准确且一致的评价对于众多领域的决策至关重要,但由于固有的主观性、变异性以及规模问题,这项任务依然极具挑战性。大规模语言模型(LLMs)在多个领域取得了显著的成功,导致了“LLM作为评判者”的出现,即利用LLMs作为复杂任务的评价者。凭借处理多种数据类型、提供可扩展、低成本且一致的评估的能力,LLMs 提出了与传统专家驱动评估的一种有吸引力的替代方案。然而,确保 LLM 作为评判者系统的可靠性仍是一项重要的挑战,需要细致的设计和标准化。本文对 LLM 作为评判者进行了全面的综述,探讨的核心问题是:如何构建可靠的 LLM 作为评判者系统?我们探讨了增强可靠性的策略,包括提高一致性、缓解偏见以及适应多样化的评估场景。此外,我们提出了用于评估 LLM 作为评判者系统可靠性的方法论,并设计了一个新型基准用于此目的。为了促进 LLM 作为评判者系统的发展和实际部署,我们还讨论了其实用应用、挑战和未来方向。本文为该快速发展的领域中的研究人员和实践者提供了基础参考。