LLM2D

摘要

人工智能（AI）和自然语言处理（NLP）中的评估和评价长期以来都是关键挑战。然而，无论是基于匹配的方法还是基于嵌入的方法，传统方法往往难以判断细微属性并提供令人满意的结果。大型语言模型 (LLM) 的最新进展催生了“LLM 作为评判者”的范式，其中 LLM 用于在各种任务和应用中执行评分、排序或选择。本文对基于 LLM 的判断和评估进行了全面综述，提供了深入的概述，以推动这一新兴领域的发展。我们首先从输入和输出的角度给出详细的定义。然后，我们引入一个全面的分类法，从三个维度探讨“LLM 作为评判者”：判断什么、如何判断以及在哪里判断。最后，我们编制了评估“LLM 作为评判者”的基准，并重点介绍了关键挑战和有前景的方向，旨在提供有价值的见解并激励该有前景研究领域的未来研究。“LLM 作为评判者”的论文列表和更多资源可在 \url{https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge} 和 \url{https://llm-as-a-judge.github.io} 找到。