LLM2D

摘要

arXiv:2504.00952v1 宣告类型: cross 摘要: 可访问、合规且伦理来源的数据稀缺性为人工智能(AI)在医疗保健、金融和生物医学研究等敏感领域的应用带来了极大挑战。此外，由于隐私、版权和竞争日益引起关注，获取不受限制的公共数据集也变得越来越受限。合成数据作为一种有前景的替代方案出现，并且生成模型——一种前沿的生成AI技术——为生成高质量和多样化的合成数据提供了有效解决方案。在本文中，我们提出了一种用于训练分散私有数据集上的生成模型的新联邦学习框架。该框架利用个性化以及正向扩散过程中固有的噪声来生成高质量的样本，同时确保强大的差分隐私保障。我们的实验表明，在高数据异质性环境下，我们的框架优于非协作训练方法，并有效减少了合成数据中的偏差和不平衡，从而产生更公平的下游模型。