LLM2D
挖掘你的秘密:用于文本到图像扩散模型持续个性化的扩散分类器得分
Mining Your Own Secrets: Diffusion Classifier Scores for Continual Personalization of Text-to-Image Diffusion Models
作者: Saurav Jha, Shiqi Yang, Masato Ishii, Mengjie Zhao, Christian Simon, Muhammad Jehanzeb Mirza, Dong Gong, Lina Yao, Shusuke Takahashi, Yuki Mitsufuji
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00700v2

摘要

个性化的文本到图像扩散模型因其能够有效地从用户定义的文本描述和少量图像中获取新概念而广受欢迎。然而,在现实世界中,用户可能希望一次在一个概念上个性化模型,但无法访问先前概念的数据,因为存在存储/隐私问题。在面对这种持续学习 (CL) 设置时,大多数个性化方法无法在获取新概念和保留先前概念之间取得平衡——这是持续个性化 (CP) 旨在解决的挑战。受依赖于特定类别信息进行正则化的成功 CL 方法的启发,我们采用固有的类别条件密度估计(也称为扩散分类器 (DC) 分数)来持续个性化文本到图像扩散模型。具体来说,我们建议使用 DC 分数来正则化文本到图像扩散模型的参数空间和函数空间,从而实现持续个性化。通过使用多个不同的评估设置、数据集和指标,我们表明我们提出的基于正则化的 CP 方法优于最先进的 C-LoRA 和其他基线。最后,通过在无回放 CL 设置和低秩适配器上运行,我们的方法分别在存储和参数方面与最先进方法相比没有额外开销。