摘要
arXiv:2410.22108v2 通知类型: replace-cross
摘要: 在大量网页语料库上训练的生成模型,如大型语言模型(LLM)和多模态大型语言模型(MLLMs),可以记住并公开个体的机密和私人数据,引发法律和伦理问题。尽管许多之前的工作已经在LLM中通过机器遗忘来解决这一问题,但对于MLLMs而言,这方面的工作仍然很少。为应对这一挑战,我们引入了多模态大型语言模型遗忘基准(MLLMU-Bench),这是一种旨在推进多模态机器遗忘理解的新基准。MLLMU-Bench 包括500个虚构的个人资料和153个公众名人的个人资料,每个个人资料包含超过14个定制的问答对,从多模态(图像+文本)和单模态(文本)两个视角进行评估。基准测试分为四组,以评估遗忘算法的有效性、泛化能力和模型实用性。最后,我们使用现有的生成模型遗忘算法提供了基准结果。令人惊讶的是,我们的实验表明,在生成和填空任务中,单模态遗忘算法表现出色,而在包含多模态输入的分类任务中,多模态遗忘方法表现更好。