LLM2D
评估大语言模型在修复实际项目中可维护性问题方面的有效性
Evaluating the Effectiveness of LLMs in Fixing Maintainability Issues in Real-World Projects
作者: Henrique Nunes, Eduardo Figueiredo, Larissa Rocha, Sarah Nadi, Fischer Ferreira, Geanderson Esteves
发布日期: 2/5/2025
arXiv ID: 2502.02368

摘要

arXiv:2502.02368v1 类型: cross 摘要:大型语言模型(LLMs)因解决编码问题而受到关注,但它们在修复代码可维护性方面的有效性仍然不清楚。本研究评估了LLMs解决来自10个GitHub仓库的127个可维护性问题的能力。我们对Copilot Chat和Llama 3.1使用零样本提示,而仅对Llama使用少量样本提示。对由LLM生成的解决方案进行了编译错误、测试失败和新可维护性问题的评估。使用少量样本提示的Llama成功修复了44.9%的方法,而仅使用零样本提示的Copilot Chat和Llama分别修复了32.29%和30%。然而,大多数解决方案引入了错误或新的可维护性问题。我们还对45名参与者进行了人类研究,以评估51个由LLM生成的解决方案的可读性。人类研究显示,68.63%的参与者观察到改进了可读性。总的来说,虽然LLMs在修复可维护性问题方面显示出潜力,但它们引入错误的现象凸显了其当前的局限性。