LLM2D
文本到图像知识编辑中开创可靠评估:利用细粒度数据集和创新标准
Pioneering Reliable Assessment in Text-to-Image Knowledge Editing: Leveraging a Fine-Grained Dataset and an Innovative Criterion
作者: Hengrui Gu, Kaixiong Zhou, Yili Wang, Ruobing Wang, Xin Wang
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.17928v1

摘要

在预训练阶段,文本到图像(T2I)扩散模型将事实性知识编码到其参数中。这些参数化的知识使模型能够生成逼真的图像,但随着时间的推移,它们可能会过时,从而错误地反映当前的世界状况。知识编辑技术旨在以目标导向的方式更新模型知识。然而,由于编辑数据集不足和评估标准不可靠的双重挑战,T2I 知识编辑的发展在有效推广注入知识方面遇到了困难。在这项工作中,我们设计了一个 T2I 知识编辑框架,该框架全面涵盖了三个阶段:首先,我们整理了一个名为 **CAKE** 的数据集,包含释义和多对象测试,以对知识泛化进行更细致的评估。其次,我们提出了一种新颖的标准,**自适应 CLIP 阈值**,以有效地过滤掉当前标准下错误成功的图像,并实现可靠的编辑评估。最后,我们引入了 **MPE**,一种简单但有效的 T2I 知识编辑方法。MPE 不是调整参数,而是精确识别和编辑条件文本提示的过时部分,以适应最新的知识。MPE 的直接实现(基于上下文学习)表现出比以前模型编辑器更好的整体性能。我们希望这些努力能够进一步促进对 T2I 知识编辑方法的忠实评估。