LLM2D
基于GPT-4迭代评估和提升代码质量的方法
On Iterative Evaluation and Enhancement of Code Quality Using GPT-4o
作者: Rundong Liu, Andre Frade, Amal Vaidya, Maxime Labonne, Marcus Kaiser, Bismayan Chakrabarti, Jonathan Budd, Sean Moran
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07399v1

摘要

arXiv:2502.07399v1 交叉公告类型 摘要:本文介绍了CodeQUEST,这是一个新颖的框架,利用大型语言模型(LLMs)在多个维度上逐步评估和提高代码质量,包括可读性、可维护性、效率和安全性。该框架分为两个主要组成部分:评估器(Evaluator),它在十个维度上评估代码质量,提供定量评分和定性总结,以及优化器(Optimizer),基于评估器的反馈逐步改进代码。我们的研究显示,CodeQUEST能够有效地和稳健地评估代码质量,其评估结果与现有的代码质量指标高度一致。通过使用精选的Python和JavaScript示例数据集进行一系列实验,CodeQUEST在代码质量上取得了显著提升,达到了52.6%的平均相对百分比改进。框架的评估结果与一组代理度量标准(包含Pylint评分、Radon可维护性索引和Bandit输出日志)进行了验证,显示了显著的相关性。这突显了LLMs在自动化代码质量评估和改进过程中的潜力,代表了提高软件开发实践的重大进展。框架的代码实现可以在以下链接找到:https://github.com/jpmorganchase/CodeQuest。