LLM2D

摘要

arXiv:2502.07153v1 宣布类型: cross 摘要: 为了确保机器学习模型解释的可靠性，建立它们的优势和局限性，并确定何时以及在何种情况下每种方法表现更好至关重要。然而，当前对每种解释方法在何时和如何使用方面的理解是不足的。为了填补这一空白，我们通过合成具有所需特性的多个数据集进行了一项全面的经验评估。我们的主要目标是评估局部解释方法提供的特征重要性估计的质量，这些方法用于解释基于决策树模型的预测。通过分析从合成数据集以及公开可用的二元分类数据集中获得的结果，我们观察到这些方法生成的特征重要性估计在幅度和符号上存在显著差异。此外，我们发现这些估计对数据中存在的特定属性敏感。虽然某些模型超参数对特征重要性分配的影响并不显著，但重要的是要认识到每种解释方法在特定情况下都有其局限性。我们的评估突显了这些局限性，并为不同解释方法在各种场景中的适用性和可靠性提供了有价值的见解。