LLM2D

摘要

arXiv:2504.14797v1 类别:交叉学科摘要:许多大型开源项目的所有者和贡献者会将软件缺陷或增强请求（称为 bug 报告）报告给问题跟踪系统。然而，有时他们会报告已经存在的问题。首先，他们可能没有足够的时间进行现有 bug 报告的充分研究。其次，他们可能不具备该特定领域的专业知识，无法意识到现有 bug 报告实际上是在讨论相同的内容，只是用词不同。在本文中，我们提出了一种基于机器学习方法的新颖方法，可以通过报告中的文本数据自动检测开放 bug 仓库中的重复 bug 报告。我们提出了六种替代方法：主题建模、高斯朴素贝叶斯、深度学习、基于时间的组织、聚类和使用生成式预训练变压器大规模语言模型的摘要。此外，我们引入了一种基于阈值的新颖重复识别方法，不同于文献中广泛使用的目标前 k 选择方法。我们的方法在所有提出的模型中都取得了令人鼓舞的结果，准确率范围从高 70% 到低 90%。我们对一个属于 Eclipse 开源项目的公共问题数据集进行了方法评估。