LLM2D

摘要

arXiv:2505.01892v1 宣告类型: cross 摘要：在 GitHub 上有 700 颗星星，并且部分隶属于官方 ONNX 仓库，ONNX 优化器包括用于在 ONNX 模型上应用图基优化的标准方法。然而，其在优化过程中保持模型准确性的能力尚未得到严格研究。我们提出了 OODTE，一种自动且彻底评估 ONNX 优化器正确性的工具。OODTE 遵循一种简单而有效的差分测试和评估方法，这种方法可以方便地应用于其他编译器优化器。具体而言，OODTE 利用了多种 ONNX 模型，然后对其进行优化，并在用户定义的输入集上执行原始和优化版本，同时自动记录任何优化过程中的问题。最后，对于成功优化的模型，OODTE 比较结果，如果发现任何准确性的偏差，它将迭代地重复 ONNX 优化器的每个进程，以定位观察到的差异的根本原因。使用 OODTE，我们从官方 ONNX 模型库中提取了 130 个广为人知的模型，这些模型用于各种任务（分类、对象检测、语义分割、文本总结、问答、情感分析）。我们检测到了 15 个问题，其中 14 个是之前未知的问题，与优化器崩溃和准确性偏差相关。我们还观察到，在所有模型实例中有 9.2% 的情况导致优化器崩溃，或者在使用主要优化器策略时生成了一个无效模型。此外，在原始和优化模型版本之间，有 30% 的分类模型显示出准确性的差异，至少有 16.6% 的语义分割和对象检测模型受到影响，尽管程度比较有限。