LLM2D

摘要

arXiv:2504.21072v1 威胁类型：跨领域摘要：大规模文本到图像扩散模型的扩展引发了对其可能生成不良或有害内容的担忧，范围从虚构的公众人物形象到具有性暗示的图像。为了减轻这些风险，先前的工作设计了机器忘记技术，试图通过微调来消除不需要的概念。然而，在本文中，我们提出了一个新的威胁模型——有毒抹除（ToxE），并展示了最近的忘记算法，包括那些专门设计用于鲁棒性的算法，可以通过针对性的后门攻击被绕过。通过在触发器和不需要的内容之间建立联系，威胁得以实现，在此之后的消除尝试未能抹除这一联系，使对手能够生成有害内容。我们通过两种已建立的后门攻击实例化了ToxE：一种针对文本编码器，另一种操纵交叉注意层。此外，我们引入了基于评分的深度干预攻击（DISA），这是一种新颖的、更具深度的后门攻击，使用评分优化目标对整个U-Net进行优化，从而提高攻击在不同抹除方法中的持久性。我们对我们的威胁模型评估了五种最近的概念抹除方法。在消除名人身份时，我们的深度攻击在最高82%的尝试中得以绕过抹除，平均而言，在所有抹除方法中为57%。在消除隐含内容时，ToxE攻击可以展示出高达9倍更多的暴露身体部位，而DISA的平均增幅为2.9倍。这些结果突显了当前忘记策略中一个关键的安全缺陷。