LLM2D
基于解释质量的人类评分预测事实上的解释满意度
Predicting Satisfaction of Counterfactual Explanations from Human Ratings of Explanatory Qualities
作者: Marharyta Domnich, Rasmus Moorits Veski, Julius V\"alja, Kadi Tulver, Raul Vicente
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.13899v1

摘要

arXiv:2504.13899v1 类别: cross 摘要:反事实解释是可解释人工智能中广泛应用的一种方法,通过展示输入数据的小变化如何导致不同的结果,为决策制定提供了可操作的见解。尽管反事实解释非常重要,但评估其质量仍然是一个待解决的问题。传统的定量指标,如稀疏性或接近度,未能充分考虑到人类在解释中的偏好,而用户体验研究虽然有启示作用但不具备可扩展性。此外,仅依赖单一的整体满意度评级并不能提供为什么某些解释有效或无效的细致理解。为了解决这一问题,我们分析了一个由206名人类参与者评估的反事实解释数据集,参与者不仅评估了整体满意度,还评估了七个解释标准:可行性、连贯性、复杂性、可理解性、完整性、公平性和信任度。将整体满意度建模为这些标准的函数,我们发现可行性(建议变化的可操作性)和信任度(相信这些变化会带来期望的结果)始终是最强的预测用户满意度的因素,尽管完整性也作为一个有意义的贡献者出现。至关重要的是,即使排除可行性和信任度,其他指标解释了58%的变化,突显了额外解释品质的重要性。复杂性似乎独立存在,表明更详细的解释并不一定减少满意度。强指标相关性暗示了用户评估质量的潜在结构,而人口背景显著影响排名模式。这些见解指导了适应用户专业知识和领域背景的设计反事实算法,以调整解释品质。