LLM2D

摘要

arXiv:2502.07516v2 Announce Type: replace-cross 摘要：生成模型，特别是在医学图像分析中，文本到图像（T2I）扩散模型起着关键作用。然而，这些模型容易记住训练数据，这对患者隐私构成了重大风险。合成胸部X光图像是在医学图像分析中最常见的应用之一，而MIMIC-CXR数据集是该任务的主要数据存储库。本研究首次系统地尝试识别MIMIC-CXR中最能导致训练数据记忆化的提示和文本标记。我们的分析揭示了两个意想不到的发现：（1）包含去识别程序痕迹（用于隐藏受保护的健康信息的标记）的提示是最容易记忆的，（2）在所有标记中，去识别标记对记忆化的贡献最大。这突显了标准匿名化实践及MIMIC-CXR在T2I合成中所面临更广泛的问题。更糟糕的是，现有的推理时记忆化缓解策略效果不佳，无法充分减少模型对记忆化文本标记的依赖。为此，我们提出了不同利益相关方的可行动策略，以增强隐私并提高生成模型在医学成像中的可靠性。最后，我们的结果为未来使用MIMIC-CXR数据集开发和基准测试合成胸部X光图像记忆化缓解技术奠定了基础。匿名代码可在https://anonymous.4open.science/r/diffusion_memorization-8011/获取。