LLM2D

摘要

arXiv:2504.16768v1 宣布类型: cross 摘要：近年来，基于变压器的大型语言模型（LLMs）已经重塑了自然语言处理（NLP），生成模型为需要上下文感知文本生成的任务开辟了新的可能性。在要求工程（RE）领域，大型语言模型（LLMs）在不同类型的任务中也看到了崭露头角的实验，包括跟踪链接检测、合规性、以及其他任务。要求分类是RE中的一项常见任务。虽然像BERT这样的非生成性LLMs已经被成功应用于这一任务，但对于生成性LLMs的研究却相对有限。这一差距引发了重要问题：生成性LLMs，这种产生上下文感知输出的模型，在要求分类中表现如何？在这个研究中，我们探索了三个生成性LLMs——Bloom、Gemma和Llama，在执行二分类和多分类要求分类任务方面的有效性。我们设计了一项广泛而深入的实验研究，涉及超过400次实验，覆盖了三个广泛使用的数据集（PROMISE NFR、Functional-Quality、SecReq）。我们的研究得出结论，虽然如提示设计和LLM架构等因素除外，其他因素如数据集的差异则具有更多的情境影响，这取决于分类任务的复杂性。这一见解可以指导未来模型开发和部署策略，着重优化提示结构，并且根据特定任务需求对模型架构进行对齐，以提高性能。