LLM2D

摘要

arXiv:2503.22141v1 公告类型：交叉摘要：上下文：本文深入探讨了使用 OpenAI 开发的 GPT 模型生成和评估 metamorphic 关系（MRs）的情况，特别关注 GPT-4 在软件测试环境中的能力。目标：目的是评估 OpenAI 的 GPT-3.5 和 GPT-4 为先前研究中采用的具体受测系统（SUT）生成的 MRs 的质量，并引入并应用于多种 SUT 的改进评价框架。方法：初始阶段使用先前研究中的评价标准评估 GPT-3.5 和 GPT-4 生成的 MRs，随后使用增强的评价框架评估 GPT-4 为九种不同 SUT（从简单的程序到包含 AI/ML 组件的复杂系统）生成的 MRs。自定义构建的 GPT 评估器与人类评估者一起评估 MRs，使自动化评估方法和人类评估方法能够直接比较。结果：研究发现 GPT-4 在生成准确且有用的 MRs 方面优于 GPT-3.5。借助先进的评价标准，GPT-4 在多种 SUT 中展示了生成高质量 MRs 的显著能力，包括包含 AI/ML 组件的复杂系统。结论：GPT-4 在生成适用于各种应用的 MRs 方面表现出高级能力。该研究强调了 AI 在软件测试中的增长潜力，尤其是在生成和评估 MRs 方面，并指出了人与 AI 技能在该领域的互补性。