LLM2D

摘要

arXiv:2502.02715v1 Announce Type: cross 摘要：非确定性测试在执行过程中表现出非确定性行为，它们可能在程序代码未作任何更改的情况下通过或失败。检测和分类这些非确定性测试对于维护自动化测试套件的稳健性以及确保测试的整体可靠性和信心至关重要。然而，由于测试行为的变异性，这对非确定性测试的检测和分类构成了挑战，该变异性可能取决于环境条件和代码中的细微交互。大型语言模型（LLMs）提供了应对这一挑战的有前景的方法，微调和少量示例学习（FSL）已作为可行的技术出现。通过足够的数据对预训练的LLM进行微调可以实现高准确性，使其适合资源较多的组织。为此，我们引入了FlakyXbert，这是一种FSL方法，使用双胞胎网络架构以有限的数据高效地进行训练。为了理解这两种方法在性能和成本上的差异，我们在受限于较小数据集的情景中将通过较大数据集进行微调与FSL进行了比较。我们的评估涉及两个现有的非确定性测试数据集FlakyCat和IDoFT。我们的结果显示，虽然微调可以达到高准确性，但FSL提供了具有竞争力准确性的成本效益更高的方法，这对于有限的历史数据可用进行训练的组织或项目尤其有利。这些发现强调了在非确定性测试检测和分类中，微调和FSL都具有可行性，每种方法适用于不同的组织需求和资源可用性。