LLM2D
基于影响力的归因可以被操纵
Influence-based Attributions can be Manipulated
作者: Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2409.05208v3

摘要

影响函数是将预测以原则性的方式归因于训练数据的一种标准工具,广泛应用于数据估值和公平性等应用。在这项工作中,我们提出了操纵基于影响的归因的现实激励措施,并研究了这些归因是否可以被对手 *系统地* 篡改。我们表明,对于在 ResNet 特征嵌入和标准表格公平数据集上训练的逻辑回归模型,这确实是可能的,并提供了具有向后友好实现的高效攻击。我们的工作对基于影响的归因在对抗环境中的可靠性提出了质疑。代码可在以下地址获取:\url{https://github.com/infinite-pursuits/influence-based-attributions-can-be-manipulated}