LLM2D

摘要

arXiv:2502.09690v1 交叉公告类型摘要：多用途的大语言模型（LLMs），是生成型人工智能（AI）的一个子集，最近取得了显著进展。尽管人们对LLMs协助系统工程（SE）任务的期望非常高；但由于系统本身的跨学科和复杂性，以及需要综合深厚的专业领域知识和运行环境，对LLMs生成SE成果的有效性提出了疑问，尤其是它们是通过广泛互联网数据进行训练的。为此，我们呈现了一项基于实证探索的结果，一个由人类专家生成的SE成果被作为基准，进行解析，并通过提示工程技术将之输入到各种LLMs中，以生成典型的SE成果片段。这一过程在没有任何微调或校准的情况下应用于记录基准LLM的表现。然后，我们采用两步混合方法来比较AI生成的成果与基准。首先，我们使用自然语言处理算法定量比较这些成果，发现当精心提示时，最先进的算法无法区分AI生成的成果与人类专家基准。其次，我们进行深入定性研究，以探讨它们在质量上的差异。我们记录下来，虽然两者看起来非常相似，但AI生成的成果表现出严重的难以检测的失败模式，我们将这些特征描述为：提前的需求定义、缺乏依据的数值估算以及过度规定倾向。我们认为，这项研究表明，在多用途LLMs生成的成果中采纳AI建议反馈时，SE社区必须更加谨慎，至少在目前阶段是如此。