LLM2D
生成式大型语言模型在执行需求分类任务时效果如何?
How Effective are Generative Large Language Models in Performing Requirements Classification?
作者: Waad Alhoshan, Alessio Ferrari, Liping Zhao
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.16768v1

摘要

arXiv:2504.16768v1 宣布类型: cross 摘要:近年来,基于变压器的大型语言模型(LLMs)已经重塑了自然语言处理(NLP),生成模型为需要上下文感知文本生成的任务开辟了新的可能性。在要求工程(RE)领域,大型语言模型(LLMs)在不同类型的任务中也看到了崭露头角的实验,包括跟踪链接检测、合规性、以及其他任务。要求分类是RE中的一项常见任务。虽然像BERT这样的非生成性LLMs已经被成功应用于这一任务,但对于生成性LLMs的研究却相对有限。这一差距引发了重要问题:生成性LLMs,这种产生上下文感知输出的模型,在要求分类中表现如何?在这个研究中,我们探索了三个生成性LLMs——Bloom、Gemma和Llama,在执行二分类和多分类要求分类任务方面的有效性。我们设计了一项广泛而深入的实验研究,涉及超过400次实验,覆盖了三个广泛使用的数据集(PROMISE NFR、Functional-Quality、SecReq)。我们的研究得出结论,虽然如提示设计和LLM架构等因素除外,其他因素如数据集的差异则具有更多的情境影响,这取决于分类任务的复杂性。这一见解可以指导未来模型开发和部署策略,着重优化提示结构,并且根据特定任务需求对模型架构进行对齐,以提高性能。