LLM2D

摘要

arXiv:2410.21131v3 宣告类型: 替换摘要: 随着机器学习模型的发展，保持透明度需要更加以人为本的可解释人工智能技术。反事实解释，其根源在于人类的推理，能够识别出产生给定输出所需的最小输入变化，因此对于支持决策至关重要。尽管它们的重要性不言而喻，但这些解释的评估往往缺乏用户研究的支持，并且仍然是碎片化的，现有的评估指标未能充分捕捉人类视角。为了解决这一挑战，我们开发了一组多样化的30个反事实场景，并从206名受访者中收集了8个评估指标的评分。随后，我们对不同的大型语言模型（LLMs）进行了微调，以预测这些指标下的平均或个体人类判断。我们的方法使LLMs在零样本评估中达到63%的准确性，在所有指标的微调中则达到了85%（三类预测）。微调后的模型能够更好地评估不同反事实解释框架，提供更好的可比性和扩展性。