LLM2D

摘要

arXiv:2502.03773v1 说明类型: cross 摘要:原则上，说明是为了增加对机器学习模型的信任，并且经常被法规要求。然而，在这些说明被要求的许多情况下都是敌对性的，这意味着参与各方的利益不一致，并且有动机操纵说明以服务于自己的目的。因此，尽管存在需求，解释方法在敌对场景中无法发挥作用，尽管存在需求\[参考:bordt2022post\]。在本文中，我们通过零知识证明（ZKPs）这一密码学原语，朝着在敌对场景中实现说明迈出了一步。具体而言，我们研究了流行的解释算法LIME的零知识证明可适应版本，并在神经网络和随机森林上评估了它们的性能。