LLM2D

摘要

影响函数是将预测以原则性的方式归因于训练数据的一种标准工具，广泛应用于数据估值和公平性等应用。在这项工作中，我们提出了操纵基于影响的归因的现实激励措施，并研究了这些归因是否可以被对手 *系统地* 篡改。我们表明，对于在 ResNet 特征嵌入和标准表格公平数据集上训练的逻辑回归模型，这确实是可能的，并提供了具有向后友好实现的高效攻击。我们的工作对基于影响的归因在对抗环境中的可靠性提出了质疑。代码可在以下地址获取：\url{https://github.com/infinite-pursuits/influence-based-attributions-can-be-manipulated}