LLM2D

摘要

arXiv:2504.18858v1 类别: cross 摘要: 背景：ChatGPT 和其他大型语言模型 (LLMs) 在医疗保健、商业、经济学、工程学和软件工程 (SE) 领域中广泛应用。尽管它们很受欢迎，但人们对其可靠性仍然存在担忧，尤其是在不同领域和软件开发生命周期 (SDLC) 阶段的错误率方面。目标：本研究综合分析并量化了 ChatGPT 在主要领域和与 SDLC 阶段相匹配的 SE 任务中的报告错误率。它提供了一个基于证据的观点，表明 ChatGPT 在哪些方面表现出色，哪些方面表现不佳，以及可靠性如何根据任务、领域和模型版本（GPT-3.5、GPT-4、GPT-4-turbo、GPT-4o）而异。方法：进行了多声援文献综述 (MLR)，收集了截至 2025 年的学术研究、报告、基准测试和灰色文献中的数据。考虑了事实性错误、推理错误、编码错误和解释性错误。数据按领域和 SE 阶段分组，并使用箱线图可视化错误分布。结果：错误率在不同领域和不同版本之间有所不同。在医疗保健领域，错误率范围从 8% 到 83%。商业和经济学的错误率从使用 GPT-3.5 时的大约 50% 下降到使用 GPT-4 时的 15%-20%。工程任务的平均错误率为 20%-30%。编程成功率达到 87.5%，尽管复杂的调试仍显示出超过 50% 的错误。在 SE 领域，需求和设计阶段的错误率较低（约 5%-20%），而编码、测试和维护阶段的错误率更为波动（10%-50%）。从 GPT-3.5 升级到 GPT-4 提高了可靠性。结论：尽管有所改进，ChatGPT 在不同领域、任务和 SDLC 阶段仍表现出非可忽略的错误率。在没有人类监督的情况下完全依赖仍然是有风险的，特别是在关键环境中。持续评估和批判性验证是确保可靠性和可信度的关键。