摘要
arXiv:2504.14797v1 类别:交叉学科
摘要:许多大型开源项目的所有者和贡献者会将软件缺陷或增强请求(称为 bug 报告)报告给问题跟踪系统。然而,有时他们会报告已经存在的问题。首先,他们可能没有足够的时间进行现有 bug 报告的充分研究。其次,他们可能不具备该特定领域的专业知识,无法意识到现有 bug 报告实际上是在讨论相同的内容,只是用词不同。在本文中,我们提出了一种基于机器学习方法的新颖方法,可以通过报告中的文本数据自动检测开放 bug 仓库中的重复 bug 报告。我们提出了六种替代方法:主题建模、高斯朴素贝叶斯、深度学习、基于时间的组织、聚类和使用生成式预训练变压器大规模语言模型的摘要。此外,我们引入了一种基于阈值的新颖重复识别方法,不同于文献中广泛使用的目标前 k 选择方法。我们的方法在所有提出的模型中都取得了令人鼓舞的结果,准确率范围从高 70% 到低 90%。我们对一个属于 Eclipse 开源项目的公共问题数据集进行了方法评估。