LLM2D

摘要

arXiv:2502.02368v1 类型: cross 摘要：大型语言模型（LLMs）因解决编码问题而受到关注，但它们在修复代码可维护性方面的有效性仍然不清楚。本研究评估了LLMs解决来自10个GitHub仓库的127个可维护性问题的能力。我们对Copilot Chat和Llama 3.1使用零样本提示，而仅对Llama使用少量样本提示。对由LLM生成的解决方案进行了编译错误、测试失败和新可维护性问题的评估。使用少量样本提示的Llama成功修复了44.9%的方法，而仅使用零样本提示的Copilot Chat和Llama分别修复了32.29%和30%。然而，大多数解决方案引入了错误或新的可维护性问题。我们还对45名参与者进行了人类研究，以评估51个由LLM生成的解决方案的可读性。人类研究显示，68.63%的参与者观察到改进了可读性。总的来说，虽然LLMs在修复可维护性问题方面显示出潜力，但它们引入错误的现象凸显了其当前的局限性。