摘要
arXiv:2502.06193v2 评估类型: replace-cross
摘要:最近,大型语言模型(LLMs)被部署到软件工程(SE)任务,如代码生成等,显著推动了SE任务的自动化。然而,评估LLM生成的代码和文本的质量仍然是一个挑战。常用的Pass@k指标需要进行大量的单元测试和配置环境,劳动成本高,并且不适合评估LLM生成的文本。传统的像BLEU这样的度量标准只测量词法相似性而不能测量语义相似性也受到了质疑。为了解决这些问题,一种新的趋势是使用LLM进行自动化评估,被称为LLM-as-a-judge。LLM-as-a-judge方法被认为可以在不需要高质量参考答案的情况下更接近人类评估。然而,它们在SE任务中的精准人类对齐仍然没有被探索。在本文中,我们实证探索了LLM-as-a-judge方法在评估SE任务中的应用,重点关注它们与人类判断的一致性。我们选择了七个利用通用大语言模型的LLM-as-a-judge方法,以及两种专门针对评估进行微调的大语言模型。在对三个最近的SE数据集进行代码翻译、代码生成和代码摘要任务的LLM响应生成和人工评分后,我们然后要求这些方法对每个响应进行评估。最后,我们将这些方法生成的评分与人类评估进行比较。结果显示,基于输出的方法在代码翻译任务中与人类评分的皮尔逊相关系数达到81.32,在代码生成任务中达到68.51,接近于人类评估,显著优于ChrF++,这是性能最好的传统度量标准之一,分别为34.23和64.92。基于输出的方法促使LLM直接输出判断,显示出更均衡的评分分布,更符合人类评分模式。最后,我们提供...