LLM2D

摘要

arXiv:2504.18596v1 宣告类型: cross 摘要：本文探讨了如何利用现代合成数据生成和高级数据扰动技术，在管理大型数据集时增强安全性、保持分析效用并提高运营效率，特别是在银行、金融服务和保险（BFSI）产业中。我们对比了这些先进的方法，包括生成模型（如GANs）、复杂的上下文感知的个人可识别信息（PII）转换、可配置的统计扰动以及差分隐私与传统的匿名化方法。目标是创建适用于复杂机器学习任务和分析的现实、隐私保护的数据集，这对于诸如BFSI、医疗保健、零售和电信等数据敏感行业至关重要。我们讨论了这些现代技术如何相对于较旧的方法，在保护隐私的同时保持数据效用方面可能提供显著改进。此外，我们还研究了使用这些增强隐私的数据集可能实现的运营效益，例如减少成本和加速分析。我们还探讨了这些方法在关键用例中的应用，这些用例能够减轻监管风险，并在不泄露敏感客户信息的情况下实现可扩展的、数据驱动的创新。