摘要
arXiv:2410.21131v3 宣告类型: 替换
摘要: 随着机器学习模型的发展,保持透明度需要更加以人为本的可解释人工智能技术。反事实解释,其根源在于人类的推理,能够识别出产生给定输出所需的最小输入变化,因此对于支持决策至关重要。尽管它们的重要性不言而喻,但这些解释的评估往往缺乏用户研究的支持,并且仍然是碎片化的,现有的评估指标未能充分捕捉人类视角。为了解决这一挑战,我们开发了一组多样化的30个反事实场景,并从206名受访者中收集了8个评估指标的评分。随后,我们对不同的大型语言模型(LLMs)进行了微调,以预测这些指标下的平均或个体人类判断。我们的方法使LLMs在零样本评估中达到63%的准确性,在所有指标的微调中则达到了85%(三类预测)。微调后的模型能够更好地评估不同反事实解释框架,提供更好的可比性和扩展性。