摘要
arXiv:2505.07910v1 交叉类型:公告
摘要:尽管可解释人工智能(XAI)的兴趣日益增长,但在超参数调整或神经网络架构优化过程中,可解释性很少被考虑,而这些过程的关注点主要依然是最小化预测损失。在这项工作中,我们提出了XAI一致性这一新型概念,定义为不同特征归因方法之间的一致性,并提出新的度量标准来量化这一概念。这是第一次将XAI一致性直接集成到超参数调整的目标中,从而创建了一个多目标优化框架,该框架平衡了预测性能与解释稳健性。在Sequential Parameter Optimization Toolbox(SPOT)中实施我们的方法时,我们采用加权聚合和基于可接受性的策略来指导模型选择。通过我们提出的方法和配套工具,我们探索了将XAI一致性引入优化过程的影响。这使我们能够区分架构配置空间中的不同区域:一个性能较差但可解释性相对较低的区域,另一个具有强大预测性能但由于XAI一致性较低而导致解释性较弱的区域,以及一个平衡了两个目标的折衷区域,该区域提供了高可解释性的同时保持了竞争力的性能。除了介绍这一创新方法外,我们的研究还为未来的研究提供了基础,即探讨是否在性能损失和XAI一致性之间取得平衡的模型能够通过避免对训练性能的过度拟合而更具有鲁棒性,从而在分布外数据上产生更可靠的预测。