摘要
代码自动评审任务近年来引起了机器学习社区的广泛关注。然而,现有的评审评论评估指标依赖于与给定代码变更(也称为差异)的人工编写的参考进行比较,即使代码评审是一个多对一问题,就像生成和摘要一样,一个差异可能有多个“有效评审”。为了解决这些问题,我们开发了 CRScore——一个无参考指标,用于衡量评审质量的维度,例如简洁性、全面性和相关性。我们设计 CRScore 以一种基于 LLM 和静态分析器在代码中检测到的断言和潜在问题的方式评估评审。我们证明 CRScore 可以生成有效的、细粒度的评审质量评分,这些评分与人工判断的匹配度最高(斯皮尔曼相关系数为 0.54),并且比基于参考的指标更敏感。我们还发布了一个包含 2.6k 个人工标注的机器生成和 GitHub 评审评论质量评分的语料库,以支持自动指标的开发。