LLM2D

摘要

arXiv:2504.08553v1 宣告类型: cross 摘要: 随着机器学习模型在越来越多的高风险领域中被考虑使用，有效的解释方法对于确保其预测策略对用户是透明的至关重要。多年来，已经提出了许多指标来评估解释质量，但它们的实际适用性仍然不清楚，特别是在对每个指标奖励的具体方面缺乏充分理解的问题上。本文提出了一种基于解释结果的谱分析的新框架，以系统地捕捉不同解释技术的多方面属性。我们的分析揭示了解释质量的两个独特因素——稳定性和目标敏感性——这些因素可以通过谱分解直接观察到。在MNIST和ImageNet上的实验表明，流行的评估方法（例如，像素翻转、熵）部分地捕捉了这些因素之间的权衡。总体而言，我们的框架为理解解释质量提供了基础，并指导了更可靠评估方法的发展。