LLM2D

摘要

arXiv:2504.05050v2 通告类型: 替换-交叉摘要：大型语言模型（LLMs）是人工智能通用性的基础探索，但通过指令调整和偏好学习与人类价值的对齐仅实现了表面合规。在这里，我们证明了预训练过程中嵌入的危害性知识在LLMs的参数记忆中持久存在，难以避免对齐保障措施，并在分布变化下被诱导重新出现。在这项研究中，我们首先通过证明当前的对齐方法只能在知识流形中提供局部的“安全区”来理论分析对齐LLMs的内在伦理脆弱性。相反，预训练知识仍然通过高概率对抗路径与有害概念保持全球连接。基于这一理论见解，我们通过使用语义连贯性诱导在分布变化下进行实证验证——这种方法通过优化的对抗提示系统地绕过了对齐约束。这种结合理论和实证的方法在19种最新的对齐LLM（包括DeepSeek-R1和LLaMA-3）中实现了100%的攻击成功率，揭示了它们的普遍脆弱性。