摘要
arXiv:2504.05050v2 通告类型: 替换-交叉
摘要:大型语言模型(LLMs)是人工智能通用性的基础探索,但通过指令调整和偏好学习与人类价值的对齐仅实现了表面合规。在这里,我们证明了预训练过程中嵌入的危害性知识在LLMs的参数记忆中持久存在,难以避免对齐保障措施,并在分布变化下被诱导重新出现。在这项研究中,我们首先通过证明当前的对齐方法只能在知识流形中提供局部的“安全区”来理论分析对齐LLMs的内在伦理脆弱性。相反,预训练知识仍然通过高概率对抗路径与有害概念保持全球连接。基于这一理论见解,我们通过使用语义连贯性诱导在分布变化下进行实证验证——这种方法通过优化的对抗提示系统地绕过了对齐约束。这种结合理论和实证的方法在19种最新的对齐LLM(包括DeepSeek-R1和LLaMA-3)中实现了100%的攻击成功率,揭示了它们的普遍脆弱性。