摘要
arXiv:2502.02368v1 类型: cross
摘要:大型语言模型(LLMs)因解决编码问题而受到关注,但它们在修复代码可维护性方面的有效性仍然不清楚。本研究评估了LLMs解决来自10个GitHub仓库的127个可维护性问题的能力。我们对Copilot Chat和Llama 3.1使用零样本提示,而仅对Llama使用少量样本提示。对由LLM生成的解决方案进行了编译错误、测试失败和新可维护性问题的评估。使用少量样本提示的Llama成功修复了44.9%的方法,而仅使用零样本提示的Copilot Chat和Llama分别修复了32.29%和30%。然而,大多数解决方案引入了错误或新的可维护性问题。我们还对45名参与者进行了人类研究,以评估51个由LLM生成的解决方案的可读性。人类研究显示,68.63%的参与者观察到改进了可读性。总的来说,虽然LLMs在修复可维护性问题方面显示出潜力,但它们引入错误的现象凸显了其当前的局限性。