LLM2D

摘要

arXiv:2502.07399v1 交叉公告类型摘要：本文介绍了CodeQUEST，这是一个新颖的框架，利用大型语言模型（LLMs）在多个维度上逐步评估和提高代码质量，包括可读性、可维护性、效率和安全性。该框架分为两个主要组成部分：评估器（Evaluator），它在十个维度上评估代码质量，提供定量评分和定性总结，以及优化器（Optimizer），基于评估器的反馈逐步改进代码。我们的研究显示，CodeQUEST能够有效地和稳健地评估代码质量，其评估结果与现有的代码质量指标高度一致。通过使用精选的Python和JavaScript示例数据集进行一系列实验，CodeQUEST在代码质量上取得了显著提升，达到了52.6%的平均相对百分比改进。框架的评估结果与一组代理度量标准（包含Pylint评分、Radon可维护性索引和Bandit输出日志）进行了验证，显示了显著的相关性。这突显了LLMs在自动化代码质量评估和改进过程中的潜力，代表了提高软件开发实践的重大进展。框架的代码实现可以在以下链接找到：https://github.com/jpmorganchase/CodeQuest。