LLM2D

摘要

arXiv:2505.07985v1 Announce 类型: cross 摘要：机器学习（ML）算法高度依赖训练数据的可用性，而这些数据在不同领域中通常包含数据提供者的敏感信息。这引发了严重的隐私问题。隐私保护技术已经作为一种实用解决方案出现，通过泛化特征或抑制数据使得准确识别个体更难。虽然最近的研究表明，隐私增强技术可以影响不同子群体的ML预测，从而影响公平决策，但匿名化技术，如$k$-匿名性、$\ell$-多样性以及$t$-接近性对ML公平性的影响仍然很大程度上未被探索。在这项工作中，我们系统地审计了匿名化技术对ML公平性的影响，评估了个体公平性和群体公平性。我们的量化研究揭示了匿名化可以将群体公平性指标大幅降低至四个数量级。相反，基于相似性的个体公平性指标在更强的匿名化下通常会有所提高，这主要是由于输入数据的同质性增加。通过对多样化的隐私设置和数据分布下的匿名化程度进行分析，这项研究提供了关于隐私、公平性和效用之间权衡的关键见解，并为负责任的人工智能开发提供可操作的指南。我们的代码可在以下链接公开获取：https://github.com/hharcolezi/anonymity-impact-fairness。