摘要
arXiv:2411.15594v4 宣布类型: replace-cross
摘要:准确且一致的评价对于众多领域的决策至关重要,但由于固有的主观性、变异性以及规模问题,这项任务依然极具挑战性。大规模语言模型(LLMs)在多个领域取得了显著的成功,导致了“LLM作为评判者”的出现,即利用LLMs作为复杂任务的评价者。凭借处理多种数据类型、提供可扩展、低成本且一致的评估的能力,LLMs 提出了与传统专家驱动评估的一种有吸引力的替代方案。然而,确保 LLM 作为评判者系统的可靠性仍是一项重要的挑战,需要细致的设计和标准化。本文对 LLM 作为评判者进行了全面的综述,探讨的核心问题是:如何构建可靠的 LLM 作为评判者系统?我们探讨了增强可靠性的策略,包括提高一致性、缓解偏见以及适应多样化的评估场景。此外,我们提出了用于评估 LLM 作为评判者系统可靠性的方法论,并设计了一个新型基准用于此目的。为了促进 LLM 作为评判者系统的发展和实际部署,我们还讨论了其实用应用、挑战和未来方向。本文为该快速发展的领域中的研究人员和实践者提供了基础参考。