LLM2D
凭你自己冒风险:对大型语言模型生成專家級系統工程 artefacts 能力的混合方法探索,以及失敗模式 CHARACTERIZATION
Trust at Your Own Peril: A Mixed Methods Exploration of the Ability of Large Language Models to Generate Expert-Like Systems Engineering Artifacts and a Characterization of Failure Modes
作者: Taylan G. Topcu, Mohammed Husain, Max Ofsa, Paul Wach
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09690v1

摘要

arXiv:2502.09690v1 交叉公告类型 摘要:多用途的大语言模型(LLMs),是生成型人工智能(AI)的一个子集,最近取得了显著进展。尽管人们对LLMs协助系统工程(SE)任务的期望非常高;但由于系统本身的跨学科和复杂性,以及需要综合深厚的专业领域知识和运行环境,对LLMs生成SE成果的有效性提出了疑问,尤其是它们是通过广泛互联网数据进行训练的。为此,我们呈现了一项基于实证探索的结果,一个由人类专家生成的SE成果被作为基准,进行解析,并通过提示工程技术将之输入到各种LLMs中,以生成典型的SE成果片段。这一过程在没有任何微调或校准的情况下应用于记录基准LLM的表现。然后,我们采用两步混合方法来比较AI生成的成果与基准。首先,我们使用自然语言处理算法定量比较这些成果,发现当精心提示时,最先进的算法无法区分AI生成的成果与人类专家基准。其次,我们进行深入定性研究,以探讨它们在质量上的差异。我们记录下来,虽然两者看起来非常相似,但AI生成的成果表现出严重的难以检测的失败模式,我们将这些特征描述为:提前的需求定义、缺乏依据的数值估算以及过度规定倾向。我们认为,这项研究表明,在多用途LLMs生成的成果中采纳AI建议反馈时,SE社区必须更加谨慎,至少在目前阶段是如此。