LLM2D
Quanda:一个用于训练数据归因评估及其他用途的可解释性工具包
Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond
作者: Dilyara Bareeva, Galip \"Umit Yolcu, Anna Hedstr\"om, Niklas Schmolenski, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.07158v1

摘要

近年来,训练数据归因 (TDA) 方法作为神经网络可解释性的一种很有前景的方向而出现。虽然围绕 TDA 的研究蓬勃发展,但对归因的评估却投入有限。类似于传统特征归因方法评估指标的发展,已经提出了几个独立的指标来评估 TDA 方法在各种环境下的质量。然而,缺乏一个允许系统比较的统一框架,限制了对 TDA 方法的信任,并阻碍了其广泛应用。为了解决这一研究空白,我们引入了 Quanda,这是一个旨在促进 TDA 方法评估的 Python 工具包。Quanda 不仅提供了一套全面的评估指标,还提供了一个统一的接口,可以与不同存储库中现有的 TDA 实现无缝集成,从而实现系统的基准测试。该工具包易于使用、经过充分测试、文档齐全,并作为开源库在 PyPi 和 https://github.com/dilyabareeva/quanda 上提供。