LLM2D

摘要

在预训练阶段，文本到图像（T2I）扩散模型将事实性知识编码到其参数中。这些参数化的知识使模型能够生成逼真的图像，但随着时间的推移，它们可能会过时，从而错误地反映当前的世界状况。知识编辑技术旨在以目标导向的方式更新模型知识。然而，由于编辑数据集不足和评估标准不可靠的双重挑战，T2I 知识编辑的发展在有效推广注入知识方面遇到了困难。在这项工作中，我们设计了一个 T2I 知识编辑框架，该框架全面涵盖了三个阶段：首先，我们整理了一个名为 **CAKE** 的数据集，包含释义和多对象测试，以对知识泛化进行更细致的评估。其次，我们提出了一种新颖的标准，**自适应 CLIP 阈值**，以有效地过滤掉当前标准下错误成功的图像，并实现可靠的编辑评估。最后，我们引入了 **MPE**，一种简单但有效的 T2I 知识编辑方法。MPE 不是调整参数，而是精确识别和编辑条件文本提示的过时部分，以适应最新的知识。MPE 的直接实现（基于上下文学习）表现出比以前模型编辑器更好的整体性能。我们希望这些努力能够进一步促进对 T2I 知识编辑方法的忠实评估。