LLM2D
CRScore:将代码评审评论的自动评估与代码声明和代码异味关联起来
CRScore: Grounding Automated Evaluation of Code Review Comments in Code Claims and Smells
作者: Atharva Naik, Marcus Alenius, Daniel Fried, Carolyn Rose
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.19801v1

摘要

代码自动评审任务近年来引起了机器学习社区的广泛关注。然而,现有的评审评论评估指标依赖于与给定代码变更(也称为差异)的人工编写的参考进行比较,即使代码评审是一个多对一问题,就像生成和摘要一样,一个差异可能有多个“有效评审”。为了解决这些问题,我们开发了 CRScore——一个无参考指标,用于衡量评审质量的维度,例如简洁性、全面性和相关性。我们设计 CRScore 以一种基于 LLM 和静态分析器在代码中检测到的断言和潜在问题的方式评估评审。我们证明 CRScore 可以生成有效的、细粒度的评审质量评分,这些评分与人工判断的匹配度最高(斯皮尔曼相关系数为 0.54),并且比基于参考的指标更敏感。我们还发布了一个包含 2.6k 个人工标注的机器生成和 GitHub 评审评论质量评分的语料库,以支持自动指标的开发。