LLM2D
从生成到判断:大型语言模型作为裁判的机会与挑战
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge
作者: Dawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16594v1

摘要

人工智能(AI)和自然语言处理(NLP)中的评估和评价长期以来都是关键挑战。然而,无论是基于匹配的方法还是基于嵌入的方法,传统方法往往难以判断细微属性并提供令人满意的结果。大型语言模型 (LLM) 的最新进展催生了“LLM 作为评判者”的范式,其中 LLM 用于在各种任务和应用中执行评分、排序或选择。本文对基于 LLM 的判断和评估进行了全面综述,提供了深入的概述,以推动这一新兴领域的发展。我们首先从输入和输出的角度给出详细的定义。然后,我们引入一个全面的分类法,从三个维度探讨“LLM 作为评判者”:判断什么、如何判断以及在哪里判断。最后,我们编制了评估“LLM 作为评判者”的基准,并重点介绍了关键挑战和有前景的方向,旨在提供有价值的见解并激励该有前景研究领域的未来研究。“LLM 作为评判者”的论文列表和更多资源可在 \url{https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge} 和 \url{https://llm-as-a-judge.github.io} 找到。