摘要
我们研究了大型语言模型(LLMs)如何通过理由来解释其生成结果,理由是指从输入文本中提取的一组标记,反映了 LLMs 的决策过程。具体来说,我们系统地研究了使用两种方法得出的理由:(1)流行的基于提示的方法,其中提示用于引导 LLMs 生成理由,以及(2)基于技术属性的方法,该方法利用注意力或梯度来识别重要标记。我们的分析跨越了三个具有带注释理由的分类数据集,涵盖了性能水平不同的任务。虽然基于提示的自我解释被广泛使用,但我们的研究表明,这些解释并不总是像基于属性的解释那样与人类理由“一致”。更重要的是,微调 LLMs 以提高分类任务准确性并不会提高基于提示的理由的一致性。然而,它确实显著提高了基于属性的方法(例如,InputXGradient)的一致性。更重要的是,我们表明,基于提示的自我解释也比基于属性的解释更“不忠实”,无法提供模型决策过程的可靠说明。为了评估忠实度,与先前排除错误分类示例的研究不同,我们评估所有实例,并还检查微调和准确性对一致性和忠实度的影响。我们的发现表明,早期研究中报道的不确定的忠实度结果可能源于较低的分类准确性。这些发现强调了对 LLM 理由进行更严格、更全面的评估的重要性。