LLM2D
B-cos LM:高效转换预训练语言模型以改善解释性
B-cos LM: Efficiently Transforming Pre-trained Language Models for Improved Explainability
作者: Yifan Wang, Sukrut Rao, Ji-Ung Lee, Mayank Jobanputra, Vera Demberg
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12992v1

摘要

arXiv:2502.12992v1 宣言类型: cross 摘要:对于黑箱模型的后验解释方法往往由于当前神经网络的解释能力不足而在忠实性和人类可解释性方面存在困难。同时,B-cos网络已经被引入以通过架构和计算的适应性改进模型的解释性,但它们的应用到目前为止仅限于计算机视觉模型及其相关的训练管道。在本工作中,我们引入了B-cos LMs,即被赋予NLP任务能力的B-cos网络。我们的方法直接将预训练的语言模型转换为B-cos LMs,通过结合B-cos转换和任务微调,相比之前的B-cos方法提高了效率。我们的自动和人工评估结果表明,B-cos LMs比后验方法生成更为忠实和人类可解释的解释,同时保持与传统微调相当的任务性能。我们深入的分析探讨了B-cos LMs在学习过程和解释模式上与传统微调模型的不同。最后,我们基于我们的发现提供了关于有效构建B-cos LMs的实用指南。我们的代码可在https://anonymous.4open.science/r/bcos_lm获取。