LLM2D

摘要

基于人工智能的系统具有独特的特性，同时在质量评估方面也带来了挑战。因此，确保和验证人工智能软件质量至关重要。本文提出了一种有效的人工智能软件功能测试模型来应对这一挑战。具体来说，我们首先对之前的工作进行了全面的文献综述，涵盖了人工智能软件测试过程的关键方面。然后，我们引入了一个三维分类模型，以系统地评估基于图像的文本提取人工智能功能，以及测试覆盖率标准和复杂性。为了评估我们提出的 AI 软件质量测试的性能，我们提出了四个评估指标来涵盖不同的方面。最后，基于提出的框架和定义的指标，我们以移动光学字符识别 (OCR) 案例研究为例，展示了该框架在评估 AI 功能质量方面的有效性和能力。