LLM2D

摘要

我们研究了大型语言模型（LLMs）如何通过理由来解释其生成结果，理由是指从输入文本中提取的一组标记，反映了 LLMs 的决策过程。具体来说，我们系统地研究了使用两种方法得出的理由：（1）流行的基于提示的方法，其中提示用于引导 LLMs 生成理由，以及（2）基于技术属性的方法，该方法利用注意力或梯度来识别重要标记。我们的分析跨越了三个具有带注释理由的分类数据集，涵盖了性能水平不同的任务。虽然基于提示的自我解释被广泛使用，但我们的研究表明，这些解释并不总是像基于属性的解释那样与人类理由“一致”。更重要的是，微调 LLMs 以提高分类任务准确性并不会提高基于提示的理由的一致性。然而，它确实显著提高了基于属性的方法（例如，InputXGradient）的一致性。更重要的是，我们表明，基于提示的自我解释也比基于属性的解释更“不忠实”，无法提供模型决策过程的可靠说明。为了评估忠实度，与先前排除错误分类示例的研究不同，我们评估所有实例，并还检查微调和准确性对一致性和忠实度的影响。我们的发现表明，早期研究中报道的不确定的忠实度结果可能源于较低的分类准确性。这些发现强调了对 LLM 理由进行更严格、更全面的评估的重要性。