摘要
arXiv:2502.09690v1 交叉公告类型
摘要:多用途的大语言模型(LLMs),是生成型人工智能(AI)的一个子集,最近取得了显著进展。尽管人们对LLMs协助系统工程(SE)任务的期望非常高;但由于系统本身的跨学科和复杂性,以及需要综合深厚的专业领域知识和运行环境,对LLMs生成SE成果的有效性提出了疑问,尤其是它们是通过广泛互联网数据进行训练的。为此,我们呈现了一项基于实证探索的结果,一个由人类专家生成的SE成果被作为基准,进行解析,并通过提示工程技术将之输入到各种LLMs中,以生成典型的SE成果片段。这一过程在没有任何微调或校准的情况下应用于记录基准LLM的表现。然后,我们采用两步混合方法来比较AI生成的成果与基准。首先,我们使用自然语言处理算法定量比较这些成果,发现当精心提示时,最先进的算法无法区分AI生成的成果与人类专家基准。其次,我们进行深入定性研究,以探讨它们在质量上的差异。我们记录下来,虽然两者看起来非常相似,但AI生成的成果表现出严重的难以检测的失败模式,我们将这些特征描述为:提前的需求定义、缺乏依据的数值估算以及过度规定倾向。我们认为,这项研究表明,在多用途LLMs生成的成果中采纳AI建议反馈时,SE社区必须更加谨慎,至少在目前阶段是如此。