LLM2D

摘要

代码自动评审任务近年来引起了机器学习社区的广泛关注。然而，现有的评审评论评估指标依赖于与给定代码变更（也称为差异）的人工编写的参考进行比较，即使代码评审是一个多对一问题，就像生成和摘要一样，一个差异可能有多个“有效评审”。为了解决这些问题，我们开发了 CRScore——一个无参考指标，用于衡量评审质量的维度，例如简洁性、全面性和相关性。我们设计 CRScore 以一种基于 LLM 和静态分析器在代码中检测到的断言和潜在问题的方式评估评审。我们证明 CRScore 可以生成有效的、细粒度的评审质量评分，这些评分与人工判断的匹配度最高（斯皮尔曼相关系数为 0.54），并且比基于参考的指标更敏感。我们还发布了一个包含 2.6k 个人工标注的机器生成和 GitHub 评审评论质量评分的语料库，以支持自动指标的开发。