LLM2D

摘要

arXiv:2405.19458v4 宣告类型: replace-cross 摘要：扩散模型在生成与训练数据高度相似的图像方面表现出色，但也容易进行数据记忆化，这引发了隐私、伦理和法律方面的关切，特别是在医学成像等敏感领域。我们假设这种记忆化源自深度模型的过度参数化，并提出在微调过程中正则化模型容量可以缓解这一问题。首先，我们通过实验证明，通过参数效率微调（PEFT）调节模型容量在一定程度上减轻了记忆化现象，但是还需要确定要微调的具体参数子集以获得高质量的生成。为了识别这些子集，我们提出了一种双层优化框架MemControl，在微调过程中使用记忆化和生成质量指标作为奖励来自动化参数选择。通过MemControl发现的参数子集在生成质量和记忆化之间实现了更好的权衡。对于医学图像生成任务，我们的方法通过微调不到0.019%的模型参数就能超越现有最先进的记忆化缓解策略。此外，我们证明了通过MemControl发现的参数子集可以应用到非医学领域。我们的框架可以扩展到大规模数据集，对奖励函数无依赖，并且可以与现有的方法结合以进一步缓解记忆化问题。据我们所知，这是首次通过实验证明医学图像中的记忆化现象，并提出一种针对性但普遍适用的缓解策略。代码可在https://github.com/Raman1121/Diffusion_Memorization_HPO上获得。