LLM2D

摘要

影响函数是将预测结果合理地归因于训练数据的一种标准工具，广泛应用于数据估值和公平性等领域。在本研究中，我们提出了现实的激励措施来操纵基于影响的归因，并调查这些归因是否可以被对手 *系统地* 篡改。我们证明了这一点对于在 ResNet 特征嵌入和标准表格公平数据集上训练的逻辑回归模型是可能的，并提供了具有向后友好实现的高效攻击。我们的研究对基于影响的归因在对抗环境中的可靠性提出了质疑。代码可在以下地址获取：\url{https://github.com/infinite-pursuits/influence-based-attributions-can-be-manipulated}