摘要
arXiv:2502.07516v1 交叉领域公告类型:交叉
摘要:生成模型,特别是文本到图像(T2I)扩散模型,对于医学图像分析起着关键作用。然而,这些模型容易记住训练数据,对患者隐私构成了重大风险。合成胸部X光图像是医学图像分析中最常见的应用之一,MIMIC-CXR数据集是执行此任务的主要数据仓库。本研究采取数据驱动的方法,提出首次系统地尝试识别MIMIC-CXR中最能导致训练数据记忆的提示和文本令牌。我们的分析揭示了一个意想不到的结果:包含去识别程序痕迹的提示是最容易记忆的,其中去识别标记贡献最大。此外,我们还发现现有的推理时记忆减轻策略无效,无法充分减少模型对记忆文本令牌的依赖,突显了在使用MIMIC-CXR进行合成胸部X光图像生成时存在的更广泛问题。针对这一问题,我们提出了增强隐私并改善生成模型在医学影像中可靠性的可操作策略。最后,我们的结果为未来使用MIMIC-CXR数据集开发和基准测试合成胸部X光图像生成的记忆减轻技术奠定了基础。