LLM2D

摘要

准确一致的评估对于众多领域的决策至关重要，然而由于固有的主观性、变异性和规模性，这仍然是一项具有挑战性的任务。大型语言模型 (LLM) 已在各个领域取得了显著成功，导致出现了“LLM 作为评判者”的现象，其中 LLM 被用作复杂任务的评估者。凭借其处理多种数据类型并提供可扩展、经济高效且一致的评估的能力，LLM 为传统的专家驱动评估提供了一种引人注目的替代方案。然而，确保“LLM 作为评判者”系统的可靠性仍然是一项重大挑战，需要仔细的设计和标准化。本文对“LLM 作为评判者”进行了全面的综述，探讨了核心问题：如何构建可靠的“LLM 作为评判者”系统？我们探索了提高可靠性的策略，包括提高一致性、减轻偏差以及适应不同的评估场景。此外，我们提出了评估“LLM 作为评判者”系统可靠性的方法，并为此目的设计了一个新的基准。为了推进“LLM 作为评判者”系统的开发和实际部署，我们还讨论了实际应用、挑战和未来方向。本综述为这一快速发展领域的科研人员和实践者提供了基础性参考。