LLM2D
LLM们能否取代人类评估者?软件工程中LLM作为裁判的实证研究
Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering
作者: Ruiqi Wang, Jiyu Guo, Cuiyun Gao, Guodong Fan, Chun Yong Chong, Xin Xia
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2502.06193v3

摘要

arXiv:2502.06193v3 宣告类型: replace-cross 摘要: 最近,大型语言模型(LLMs)已被部署用于处理诸如代码生成等各种软件工程(SE)任务,显著地推进了SE任务的自动化。然而,评估这些LLM生成的代码和文本的质量仍是一个挑战。常用的Pass@k指标需要大量的单元测试和配置环境,要求高的人工成本,并且不适用于评估LLM生成的文本。传统的衡量标准,如BLEU,只衡量词汇层面而不是语义层面的相似性,也受到了批评。为应对这一挑战,一个新的趋势出现了,即使用LLMs进行自动评估,这种方法被称为LLM-as-a-judge。这些LLM-as-a-judge的方法声称能够在不需要高质量参考答案的情况下更好地模拟人类评估过程,且优于传统衡量标准。然而,它们在SE任务中的具体人类一致性尚未得到探索。 在这篇论文中,我们实证性地探索了LLM-as-a-judge方法在评估SE任务中的应用,重点关注其与人类判断的一致性。我们选择了七个利用通用LLM的LLM-as-a-judge方法,以及两个专门微调用于评估的LLM。在对三个最新的SE数据集(代码翻译、代码生成和代码摘要)生成的LLM响应进行生成和人工评分后,我们促使这些方法对每个响应进行评估。最后,我们将这些方法生成的分数与人类评估进行比较。结果表明,在代码翻译和生成中,基于输出的方法分别达到了81.32和68.51的皮尔逊相关系数,接近人类评估,并明显优于ChrF++,这是表现最好的传统衡量标准之一,分别为34.23和64.92。这些基于输出的方法促使LLM直接输出判断,且得分分布更为平衡,类似于人类评分的模式。最后,我们提供……