摘要
arXiv:2505.01892v1 宣告类型: cross
摘要:在 GitHub 上有 700 颗星星,并且部分隶属于官方 ONNX 仓库,ONNX 优化器包括用于在 ONNX 模型上应用图基优化的标准方法。然而,其在优化过程中保持模型准确性的能力尚未得到严格研究。我们提出了 OODTE,一种自动且彻底评估 ONNX 优化器正确性的工具。OODTE 遵循一种简单而有效的差分测试和评估方法,这种方法可以方便地应用于其他编译器优化器。具体而言,OODTE 利用了多种 ONNX 模型,然后对其进行优化,并在用户定义的输入集上执行原始和优化版本,同时自动记录任何优化过程中的问题。最后,对于成功优化的模型,OODTE 比较结果,如果发现任何准确性的偏差,它将迭代地重复 ONNX 优化器的每个进程,以定位观察到的差异的根本原因。使用 OODTE,我们从官方 ONNX 模型库中提取了 130 个广为人知的模型,这些模型用于各种任务(分类、对象检测、语义分割、文本总结、问答、情感分析)。我们检测到了 15 个问题,其中 14 个是之前未知的问题,与优化器崩溃和准确性偏差相关。我们还观察到,在所有模型实例中有 9.2% 的情况导致优化器崩溃,或者在使用主要优化器策略时生成了一个无效模型。此外,在原始和优化模型版本之间,有 30% 的分类模型显示出准确性的差异,至少有 16.6% 的语义分割和对象检测模型受到影响,尽管程度比较有限。