LLM2D
你为什么不应该完全信任ChatGPT:该AI工具在各个学科和软件工程生命周期中错误率的综合分析
Why you shouldn't fully trust ChatGPT: A synthesis of this AI tool's error rates across disciplines and the software engineering lifecycle
作者: Vahid Garousi
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.18858v1

摘要

arXiv:2504.18858v1 类别: cross 摘要: 背景:ChatGPT 和其他大型语言模型 (LLMs) 在医疗保健、商业、经济学、工程学和软件工程 (SE) 领域中广泛应用。尽管它们很受欢迎,但人们对其可靠性仍然存在担忧,尤其是在不同领域和软件开发生命周期 (SDLC) 阶段的错误率方面。 目标:本研究综合分析并量化了 ChatGPT 在主要领域和与 SDLC 阶段相匹配的 SE 任务中的报告错误率。它提供了一个基于证据的观点,表明 ChatGPT 在哪些方面表现出色,哪些方面表现不佳,以及可靠性如何根据任务、领域和模型版本(GPT-3.5、GPT-4、GPT-4-turbo、GPT-4o)而异。 方法:进行了多声援文献综述 (MLR),收集了截至 2025 年的学术研究、报告、基准测试和灰色文献中的数据。考虑了事实性错误、推理错误、编码错误和解释性错误。数据按领域和 SE 阶段分组,并使用箱线图可视化错误分布。 结果:错误率在不同领域和不同版本之间有所不同。在医疗保健领域,错误率范围从 8% 到 83%。商业和经济学的错误率从使用 GPT-3.5 时的大约 50% 下降到使用 GPT-4 时的 15%-20%。工程任务的平均错误率为 20%-30%。编程成功率达到 87.5%,尽管复杂的调试仍显示出超过 50% 的错误。在 SE 领域,需求和设计阶段的错误率较低(约 5%-20%),而编码、测试和维护阶段的错误率更为波动(10%-50%)。从 GPT-3.5 升级到 GPT-4 提高了可靠性。 结论:尽管有所改进,ChatGPT 在不同领域、任务和 SDLC 阶段仍表现出非可忽略的错误率。在没有人类监督的情况下完全依赖仍然是有风险的,特别是在关键环境中。持续评估和批判性验证是确保可靠性和可信度的关键。