LLM2D

摘要

arXiv:2502.02368v1 类型: cross 摘要：大型语言模型（LLMs）在解决编码问题方面引起了关注，但它们在修复代码可维护性方面的有效性仍有待澄清。本研究评估了LLMs修复来自10个GitHub仓库的127个可维护性问题的能力。我们使用零样本提示对Copilot Chat和Llama 3.1进行评估，而仅对Llama使用少量样本提示。对于生成的解决方案，我们评估了其编译错误、测试失败和新引入的可维护性问题。带有少量样本提示的Llama成功修复了44.9%的方法，而Copilot Chat和Llama零样本提示分别修复了32.29%和30%。然而，大多数生成的解决方案引入了错误或新的可维护性问题。我们还对45名参与者进行了一个关于51个LLM生成的解决方案可读性的评估研究。该研究显示，68.63%的参与者观察到了可读性的改善。总体而言，尽管LLMs展示了修复可维护性问题的潜力，但它们引入的错误也揭示了它们当前的局限性。