摘要
人工智能(AI)和自然语言处理(NLP)中的评估和评价长期以来都是关键挑战。然而,无论是基于匹配的方法还是基于嵌入的方法,传统方法往往难以判断细微属性并提供令人满意的结果。大型语言模型 (LLM) 的最新进展催生了“LLM 作为评判者”的范式,其中 LLM 用于在各种任务和应用中执行评分、排序或选择。本文对基于 LLM 的判断和评估进行了全面综述,提供了深入的概述,以推动这一新兴领域的发展。我们首先从输入和输出的角度给出详细的定义。然后,我们引入一个全面的分类法,从三个维度探讨“LLM 作为评判者”:判断什么、如何判断以及在哪里判断。最后,我们编制了评估“LLM 作为评判者”的基准,并重点介绍了关键挑战和有前景的方向,旨在提供有价值的见解并激励该有前景研究领域的未来研究。“LLM 作为评判者”的论文列表和更多资源可在 \url{https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge} 和 \url{https://llm-as-a-judge.github.io} 找到。