LLM2D

摘要

arXiv:2504.05050v1 Announce Type: cross 摘要：大型语言模型（LLMs）是通往人工通用智能的基础性探索，但它们通过指令调优和偏好学习与人类价值观的一致性仅达到了表面合规。在这里，我们证明了预训练过程中嵌入的有害知识以不可磨灭的“黑暗模式”形式在LLMs的参数记忆中永久存在，规避了对齐保护措施，并在分布变化下重新出现。在本研究中，我们首先通过证明当前的对齐方法仅在知识流形中提供局部的“安全区域”来理论分析对齐的LLMs固有的伦理脆弱性。相比之下，预训练知识仍通过高概率的对抗轨迹与有害概念全局相连。在此理论洞察的基础上，我们通过在分布变化下使用语义连贯诱导的方法经验验证了我们的发现，这是一种系统规避对齐约束的优化对抗提示方法。这种结合理论与经验的方法在19/23个最先进的对齐LLMs（包括DeepSeek-R1和LLaMA-3）中实现了100%的攻击成功率，揭示了它们的普遍脆弱性。