LLM2D
使用大规模语言模型能否提升bug报告质量?基于大规模语言模型的bug报告生成的实证研究
Can We Enhance Bug Report Quality Using LLMs?: An Empirical Study of LLM-Based Bug Report Generation
作者: Jagrit Acharya, Gouri Ginde
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.18804v1

摘要

arXiv:2504.18804v1 跨领域类型: 摘要:错误报告包含了开发者进行软件错误分类和修复所需的信息。然而,不清晰、不完整或含糊的信息可能会导致分类和修复过程中的延误和过量的手动努力。本文探讨了是否可以通过对大语言模型(LLMs)进行指令微调,自动将非正式的、未结构化的错误报告转换为高质量、符合标准模板的结构化错误报告。我们使用三种开源指令微调的LLM(Qwen 2.5、Mistral和Llama 3.2),与ChatGPT-4o进行评估,通过现有的CTQRS、ROUGE、METEOR和SBERT等指标进行性能测量。实验结果表明,微调后的Qwen 2.5的CTQRS得分为**77%**,超过了微调后的Mistral(**71%**)、Llama 3.2(**63%**)以及ChatGPT在三轮学习中的表现(**75%**)。进一步的分析显示,Llama 3.2在检测缺少字段(尤其是预期行为和实际行为)方面表现出更高的准确性,而Qwen 2.5在捕捉重现步骤方面表现更出色,F1分数为76%。对其他流行项目(例如Eclipse、GCC)进行的额外测试表明,我们的方法具有很好的通用性,在未见过的项目错误报告中的CTQRS得分达到了**70%**。这些发现突显了指令微调在自动化结构化错误报告生成方面的潜力,可以减少开发者的手动努力,简化软件维护过程。