LLM2D

摘要

arXiv:2501.19143v1 通告类型: 新增摘要: 作为人工智能的基础，机器感知面临着由对抗幻象带来的基本威胁。这些对抗攻击主要表现为两种形式：演绎幻象，其中针对受害模型的一般决策逻辑精心设计特定的刺激；归纳幻象，其中受害模型的一般决策逻辑由特定的刺激所塑造。前者利用模型的决策边界来创建一个刺激，在应用该刺激时，干扰其决策过程。后者则强化了模型中的条件反射，在学习阶段嵌入后门，在受到特定刺激触发时，导致异常行为。对抗幻象的多样性要求有一个统一的防御框架，以解决各种攻击形式下的漏洞。在本研究中，我们基于模仿游戏的理念提出了一种去幻象范式。模仿游戏的核心是一个由链式推理引导的多模态生成代理，该代理观察、内化并重建样本的语义核心，而不追求将样本恢复到其原始状态的经典方法。作为概念验证，我们使用一个多模态生成对话代理进行了实验模拟，并在多种攻击场景下评估了该方法。