LLM2D
将人工智能与人类专长整合:关于ChatGPT在生成变换关系方面能力的深入分析
Integrating Artificial Intelligence with Human Expertise: An In-depth Analysis of ChatGPT's Capabilities in Generating Metamorphic Relations
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22141v1

摘要

arXiv:2503.22141v1 公告类型:交叉 摘要:上下文:本文深入探讨了使用 OpenAI 开发的 GPT 模型生成和评估 metamorphic 关系(MRs)的情况,特别关注 GPT-4 在软件测试环境中的能力。 目标:目的是评估 OpenAI 的 GPT-3.5 和 GPT-4 为先前研究中采用的具体受测系统(SUT)生成的 MRs 的质量,并引入并应用于多种 SUT 的改进评价框架。 方法:初始阶段使用先前研究中的评价标准评估 GPT-3.5 和 GPT-4 生成的 MRs,随后使用增强的评价框架评估 GPT-4 为九种不同 SUT(从简单的程序到包含 AI/ML 组件的复杂系统)生成的 MRs。自定义构建的 GPT 评估器与人类评估者一起评估 MRs,使自动化评估方法和人类评估方法能够直接比较。 结果:研究发现 GPT-4 在生成准确且有用的 MRs 方面优于 GPT-3.5。借助先进的评价标准,GPT-4 在多种 SUT 中展示了生成高质量 MRs 的显著能力,包括包含 AI/ML 组件的复杂系统。 结论:GPT-4 在生成适用于各种应用的 MRs 方面表现出高级能力。该研究强调了 AI 在软件测试中的增长潜力,尤其是在生成和评估 MRs 方面,并指出了人与 AI 技能在该领域的互补性。