摘要
arXiv:2502.02368v1 类型: cross
摘要:大型语言模型(LLMs)在解决编码问题方面引起了关注,但它们在修复代码可维护性方面的有效性仍有待澄清。本研究评估了LLMs修复来自10个GitHub仓库的127个可维护性问题的能力。我们使用零样本提示对Copilot Chat和Llama 3.1进行评估,而仅对Llama使用少量样本提示。对于生成的解决方案,我们评估了其编译错误、测试失败和新引入的可维护性问题。带有少量样本提示的Llama成功修复了44.9%的方法,而Copilot Chat和Llama零样本提示分别修复了32.29%和30%。然而,大多数生成的解决方案引入了错误或新的可维护性问题。我们还对45名参与者进行了一个关于51个LLM生成的解决方案可读性的评估研究。该研究显示,68.63%的参与者观察到了可读性的改善。总体而言,尽管LLMs展示了修复可维护性问题的潜力,但它们引入的错误也揭示了它们当前的局限性。