LLM2D
ChatGPT支持任务工程中的问题表述能力的实证探索及其性能变异记录
An Empirical Exploration of ChatGPT's Ability to Support Problem Formulation Tasks for Mission Engineering and a Documentation of its Performance Variability
作者: Max Ofsa, Taylan G. Topcu
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.03511v1

摘要

arXiv:2502.03511v1 声明类型: cross 摘要:系统工程(SE)随着生成式人工智能(AI)的可用性和对系统化系统视角(SoS)的需求而不断发展,在美国国防部的背景下,这种视角被形式化为任务工程(ME)。制定ME问题具有挑战性,因为它们是开放性较强的练习,涉及将不明确的问题转化为工程开发所需的明确问题。尚不确定AI在多大程度上能协助问题形成目标。为此,本文探讨了多用途大规模语言模型(LLM)在支持ME问题形成任务方面的质量和一致性,特别是侧重于利益相关者的识别。我们确定了一个相关参考问题,即NASA的太空任务设计挑战,并记录了ChatGPT-3.5在执行利益相关者识别任务方面的能力。我们进行了多个并行尝试,并定性评估了LLM输出,重点关注其质量和多样性。我们的发现表明了复杂性。我们发现,LLM在识别以人类为中心的利益相关者方面表现良好,但在识别外部系统和环境因素方面表现不佳,尽管有明确的努力来考虑这些因素。此外,LLM 在保持所需的抽象水平方面存在困难,并倾向于产生特定于解决方案的输出,这些输出对于问题形成来说不合适。更重要的是,我们记录了并行线程之间的巨大差异,强调LLM输出应谨慎使用,最好采用一种关于其能力的随机观点。总体而言,我们的发现表明,虽然ChatGPT可以减轻专家的部分工作负担,但由于缺乏一致性和领域理解,它可能不适合用于问题形成任务。