LLM2D

摘要

为了确保合成数据的可证明隐私保证，人们将隐私措施（包括差分隐私技术）集成到合成数据生成中。然而，当生成式深度学习模型被要求生成真实数据时，尤其是在网络安全和医疗保健等关键领域，会遇到挑战。针对连续数据的生成式模型难以对具有领域约束的离散和非高斯特征进行建模。当训练数据集有限且缺乏多样性时，挑战会加剧。在这种情况下，生成式模型会创建重复敏感特征的合成数据，这会带来隐私风险。此外，生成式模型难以理解专业领域中的属性约束。这会导致生成不切实际的数据，影响下游的准确性。为了解决这些问题，本文提出了一种新的模型 KIPPS，该模型将知识图中的领域和监管知识注入生成式深度学习模型，以增强隐私保护合成数据生成。该新框架通过关于属性值的补充上下文来增强生成式模型的训练，并在训练过程中强制执行领域约束。这种额外的指导增强了模型生成逼真且符合领域约束的合成数据的能力。该模型在真实世界的数据集上进行了评估，特别是在网络安全和医疗保健领域，其中领域约束和规则增加了数据的复杂性。我们的实验评估了该模型相对于基准方法的隐私恢复能力和下游准确性，证明了它在复杂领域中平衡隐私保护和数据准确性的有效性。