LLM2D

摘要

随着机器学习 (ML) 模型在现实世界应用中的广泛部署，验证和审计 ML 模型的属性已成为一项核心关注点。在这项工作中，我们重点关注三个属性：鲁棒性、个体公平性和群体公平性。我们讨论了两种审计 ML 模型属性的方法：使用和不使用目标模型重建的估计方法。虽然第一种方法在文献中已有研究，但第二种方法仍未得到探索。为此，我们开发了一个新的框架，该框架根据待审计 ML 模型的傅里叶系数量化不同的属性，但不会参数化地重建它。我们提出了主动傅里叶审计器 (AFA)，它根据 ML 模型的傅里叶系数查询样本点，并进一步估计属性。我们推导出 AFA 估计值的高概率误差界限，以及审计它们的样本复杂度的最坏情况下界。我们在多个数据集和模型上的数值演示表明，与基线相比，AFA 在估计感兴趣属性方面更准确且样本效率更高。