LLM2D
朝向统一的因果解释评估:利用大型语言模型进行以人为本的评估
Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments
作者: Marharyta Domnich, Julius V\"alja, Rasmus Moorits Veski, Giacomo Magnifico, Kadi Tulver, Eduard Barbu, Raul Vicente
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2410.21131v3

摘要

arXiv:2410.21131v3 宣告类型: 替换 摘要: 随着机器学习模型的发展,保持透明度需要更加以人为本的可解释人工智能技术。反事实解释,其根源在于人类的推理,能够识别出产生给定输出所需的最小输入变化,因此对于支持决策至关重要。尽管它们的重要性不言而喻,但这些解释的评估往往缺乏用户研究的支持,并且仍然是碎片化的,现有的评估指标未能充分捕捉人类视角。为了解决这一挑战,我们开发了一组多样化的30个反事实场景,并从206名受访者中收集了8个评估指标的评分。随后,我们对不同的大型语言模型(LLMs)进行了微调,以预测这些指标下的平均或个体人类判断。我们的方法使LLMs在零样本评估中达到63%的准确性,在所有指标的微调中则达到了85%(三类预测)。微调后的模型能够更好地评估不同反事实解释框架,提供更好的可比性和扩展性。