摘要
arXiv:2501.19143v1 通告类型: 新增
摘要: 作为人工智能的基础,机器感知面临着由对抗幻象带来的基本威胁。这些对抗攻击主要表现为两种形式:演绎幻象,其中针对受害模型的一般决策逻辑精心设计特定的刺激;归纳幻象,其中受害模型的一般决策逻辑由特定的刺激所塑造。前者利用模型的决策边界来创建一个刺激,在应用该刺激时,干扰其决策过程。后者则强化了模型中的条件反射,在学习阶段嵌入后门,在受到特定刺激触发时,导致异常行为。对抗幻象的多样性要求有一个统一的防御框架,以解决各种攻击形式下的漏洞。在本研究中,我们基于模仿游戏的理念提出了一种去幻象范式。模仿游戏的核心是一个由链式推理引导的多模态生成代理,该代理观察、内化并重建样本的语义核心,而不追求将样本恢复到其原始状态的经典方法。作为概念验证,我们使用一个多模态生成对话代理进行了实验模拟,并在多种攻击场景下评估了该方法。