LLM2D

摘要

arXiv:2502.04695v1 介绍类型: 新闻摘要：这篇立场论文强调了由于缺乏标准化和可靠的指标，可解释人工智能（XAI）的评估存在关键缺口，这降低了其实际价值、可信度，并使其无法满足监管要求。当前的评估方法往往是碎片化的、主观的且有偏见的，这使其容易被操纵，并且复杂化了对复杂模型的评估。一个主要问题是缺乏解释的 ground truth，这使不同 XAI 方法之间的比较变得复杂。为了解决这些挑战，我们呼吁广泛研究开发稳健且适用情境的评估指标。这些指标应具有抗操纵性，相关于每个应用场景，并基于人类判断和实际应用可行性。我们还建议创建特定领域的评估基准，以满足医疗保健和金融等领域用户的和监管的需求。通过鼓励学术界、工业界和监管者之间的合作，我们可以建立既具有灵活性又具一致性的标准，确保 XAI 解释是有意义、可信的，并符合日益变化的监管要求。