摘要
arXiv:2502.07399v1 交叉公告类型
摘要:本文介绍了CodeQUEST,这是一个新颖的框架,利用大型语言模型(LLMs)在多个维度上逐步评估和提高代码质量,包括可读性、可维护性、效率和安全性。该框架分为两个主要组成部分:评估器(Evaluator),它在十个维度上评估代码质量,提供定量评分和定性总结,以及优化器(Optimizer),基于评估器的反馈逐步改进代码。我们的研究显示,CodeQUEST能够有效地和稳健地评估代码质量,其评估结果与现有的代码质量指标高度一致。通过使用精选的Python和JavaScript示例数据集进行一系列实验,CodeQUEST在代码质量上取得了显著提升,达到了52.6%的平均相对百分比改进。框架的评估结果与一组代理度量标准(包含Pylint评分、Radon可维护性索引和Bandit输出日志)进行了验证,显示了显著的相关性。这突显了LLMs在自动化代码质量评估和改进过程中的潜力,代表了提高软件开发实践的重大进展。框架的代码实现可以在以下链接找到:https://github.com/jpmorganchase/CodeQuest。