LLM2D

摘要

arXiv:2411.15594v4 宣布类型: replace-cross 摘要：准确且一致的评价对于众多领域的决策至关重要，但由于固有的主观性、变异性以及规模问题，这项任务依然极具挑战性。大规模语言模型（LLMs）在多个领域取得了显著的成功，导致了“LLM作为评判者”的出现，即利用LLMs作为复杂任务的评价者。凭借处理多种数据类型、提供可扩展、低成本且一致的评估的能力，LLMs 提出了与传统专家驱动评估的一种有吸引力的替代方案。然而，确保 LLM 作为评判者系统的可靠性仍是一项重要的挑战，需要细致的设计和标准化。本文对 LLM 作为评判者进行了全面的综述，探讨的核心问题是：如何构建可靠的 LLM 作为评判者系统？我们探讨了增强可靠性的策略，包括提高一致性、缓解偏见以及适应多样化的评估场景。此外，我们提出了用于评估 LLM 作为评判者系统可靠性的方法论，并设计了一个新型基准用于此目的。为了促进 LLM 作为评判者系统的发展和实际部署，我们还讨论了其实用应用、挑战和未来方向。本文为该快速发展的领域中的研究人员和实践者提供了基础参考。