LLM2D

摘要

指令微调的大语言模型能够通过生成自解释来为用户提供关于其输出的解释，而无需梯度计算或应用可能复杂的XAI方法。本文分析了这种能力是否能产生良好的解释，通过评估以输入理由形式的自解释的可信度（对人类而言）及其对模型的忠实度。为此，我们应用了两个文本分类任务：情感分类和强迫劳动检测。除了英语，我们还包括了丹麦语和意大利语的情感分类任务的翻译，并将自解释与所有样本的人工标注进行比较。为了进行直接比较，我们还计算了事后特征归因，即层级相关性传播（LRP），并将此流程应用于4个LLM（Llama2、Llama3、Mistral和Mixtral）。我们的结果表明，与LRP相比，自解释与人工标注更一致，同时保持了相当的忠实度。