摘要
arXiv:2504.18596v1 宣告类型: cross
摘要:本文探讨了如何利用现代合成数据生成和高级数据扰动技术,在管理大型数据集时增强安全性、保持分析效用并提高运营效率,特别是在银行、金融服务和保险(BFSI)产业中。我们对比了这些先进的方法,包括生成模型(如GANs)、复杂的上下文感知的个人可识别信息(PII)转换、可配置的统计扰动以及差分隐私与传统的匿名化方法。
目标是创建适用于复杂机器学习任务和分析的现实、隐私保护的数据集,这对于诸如BFSI、医疗保健、零售和电信等数据敏感行业至关重要。我们讨论了这些现代技术如何相对于较旧的方法,在保护隐私的同时保持数据效用方面可能提供显著改进。此外,我们还研究了使用这些增强隐私的数据集可能实现的运营效益,例如减少成本和加速分析。我们还探讨了这些方法在关键用例中的应用,这些用例能够减轻监管风险,并在不泄露敏感客户信息的情况下实现可扩展的、数据驱动的创新。