摘要
arXiv:2502.07516v2 Announce Type: replace-cross
摘要:生成模型,特别是在医学图像分析中,文本到图像(T2I)扩散模型起着关键作用。然而,这些模型容易记住训练数据,这对患者隐私构成了重大风险。合成胸部X光图像是在医学图像分析中最常见的应用之一,而MIMIC-CXR数据集是该任务的主要数据存储库。本研究首次系统地尝试识别MIMIC-CXR中最能导致训练数据记忆化的提示和文本标记。我们的分析揭示了两个意想不到的发现:(1)包含去识别程序痕迹(用于隐藏受保护的健康信息的标记)的提示是最容易记忆的,(2)在所有标记中,去识别标记对记忆化的贡献最大。这突显了标准匿名化实践及MIMIC-CXR在T2I合成中所面临更广泛的问题。更糟糕的是,现有的推理时记忆化缓解策略效果不佳,无法充分减少模型对记忆化文本标记的依赖。为此,我们提出了不同利益相关方的可行动策略,以增强隐私并提高生成模型在医学成像中的可靠性。最后,我们的结果为未来使用MIMIC-CXR数据集开发和基准测试合成胸部X光图像记忆化缓解技术奠定了基础。匿名代码可在https://anonymous.4open.science/r/diffusion_memorization-8011/获取。