摘要
arXiv:2503.04429v2 宣告类型: 更新
摘要:AI模型中表示通用性的研究揭示了不同领域、模态和架构之间日益趋同的趋势。然而,表示通用性的实际应用仍然很大程度上未被探索。我们通过展示一种方法来弥合这一差距,即通过学习映射其共享激活空间中的安全干预措施可以在不同模型之间进行迁移。我们在此方法上展示了两个成熟的AI安全任务:后门移除和拒绝有害提示,证明了能够成功地在模型之间转移引导向量,这些向量以可预测的方式改变模型的输出。此外,我们提出了一项新的任务,称为“受损能力”,其中模型会进行微调以嵌入与后门相关的知识。这测试了模型区分有用技能与后门的能力,反映了真实世界中的挑战。通过在Llama、Qwen和Gemma模型家族中进行广泛实验,我们展示了我们的方法使得使用较小的模型可以高效地对较大的模型进行对齐。此外,我们还展示了基础模型和微调模型之间的自动编码器映射可以作为可靠的“轻量级安全开关”,允许动态切换模型行为。