摘要
我们能否在保留神经模型准确性的同时,为模型对训练数据的决策提供忠实的解释?我们提出了一种“包装盒”管道:像往常一样训练神经模型,然后在经典的可解释模型中使用其学习到的特征表示来进行预测。我们首先在七个不同规模的语言模型(包括四个大型语言模型 (LLM))、两个不同规模的数据集、三个经典模型和四个评估指标上证明了包装经典模型的预测性能与原始神经模型基本相当。
由于经典模型是透明的,因此每个模型决策都是由一组已知的训练示例决定的,这些示例可以直接向用户展示。因此,我们的管道保留了神经语言模型的预测性能,同时将经典模型决策忠实地归因于训练数据。在其他用例中,这种归因使模型决策能够根据负责任的训练实例进行争议。与之前的工作相比,我们的方法在识别哪些训练数据需要删除以改变模型决策方面实现了更高的覆盖率和正确性。为了重现研究结果,我们的源代码已在线发布:https://github.com/SamSoup/WrapperBox。