LLM2D
评估大型语言模型在修复真实项目中的可维护性问题方面的有效性
Evaluating the Effectiveness of LLMs in Fixing Maintainability Issues in Real-World Projects
作者: Henrique Nunes, Eduardo Figueiredo, Larissa Rocha, Sarah Nadi, Fischer Ferreira, Geanderson Esteves
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.02368v1

摘要

arXiv:2502.02368v1 类型: cross 摘要:大型语言模型(LLMs)在解决编码问题方面引起了关注,但它们在修复代码可维护性方面的有效性仍有待澄清。本研究评估了LLMs修复来自10个GitHub仓库的127个可维护性问题的能力。我们使用零样本提示对Copilot Chat和Llama 3.1进行评估,而仅对Llama使用少量样本提示。对于生成的解决方案,我们评估了其编译错误、测试失败和新引入的可维护性问题。带有少量样本提示的Llama成功修复了44.9%的方法,而Copilot Chat和Llama零样本提示分别修复了32.29%和30%。然而,大多数生成的解决方案引入了错误或新的可维护性问题。我们还对45名参与者进行了一个关于51个LLM生成的解决方案可读性的评估研究。该研究显示,68.63%的参与者观察到了可读性的改善。总体而言,尽管LLMs展示了修复可维护性问题的潜力,但它们引入的错误也揭示了它们当前的局限性。