摘要
arXiv:2502.04695v1 介绍类型: 新闻
摘要:这篇立场论文强调了由于缺乏标准化和可靠的指标,可解释人工智能(XAI)的评估存在关键缺口,这降低了其实际价值、可信度,并使其无法满足监管要求。当前的评估方法往往是碎片化的、主观的且有偏见的,这使其容易被操纵,并且复杂化了对复杂模型的评估。一个主要问题是缺乏解释的 ground truth,这使不同 XAI 方法之间的比较变得复杂。为了解决这些挑战,我们呼吁广泛研究开发稳健且适用情境的评估指标。这些指标应具有抗操纵性,相关于每个应用场景,并基于人类判断和实际应用可行性。我们还建议创建特定领域的评估基准,以满足医疗保健和金融等领域用户的和监管的需求。通过鼓励学术界、工业界和监管者之间的合作,我们可以建立既具有灵活性又具一致性的标准,确保 XAI 解释是有意义、可信的,并符合日益变化的监管要求。