LLM2D

摘要

机器生成数据是训练人工智能算法、评估罕见工作流程以及在更严格的数据法规下共享数据的宝贵资源。挑战在于生成准确且私密的数据。当前的统计和深度学习方法难以处理海量数据，容易产生与现实不相符的虚假场景，并且很少有意义地量化隐私。在这里，我们介绍 Genomator，一种逻辑求解方法（SAT 求解），它可以高效地生成原始数据的私密且真实的表示。我们用基因组数据（可以说是最复杂和最私密的信息）证明了该方法。合成基因组在平衡医学研究中代表性不足的群体和促进全球数据交换方面具有巨大潜力。我们将 Genomator 与最先进的方法（马尔可夫生成、受限玻尔兹曼机、生成对抗网络和条件受限玻尔兹曼机）进行了基准测试，结果表明其准确性提高了 84-93%，隐私性提高了 95-98%。Genomator 的效率也提高了 1000-1600 倍，使其成为唯一能够扩展到整个基因组的测试方法。我们展示了隐私和准确性之间的普遍权衡，并利用 Genomator 的调整能力来满足从敏感队列的可证明私密表示到具有无法区分的药理基因组特征的数据集等各种应用的需求。展示可调合成数据的生产规模生成可以增强信任，并为临床应用铺平道路。