LLM2D
DeepSeek的黑暗深度方面:针对含有思维链能力的模型安全对齐的微调攻击
The dark deep side of DeepSeek: Fine-tuning attacks against the safety alignment of CoT-enabled models
作者: Zhiyuan Xu, Joseph Gardiner, Sana Belguith
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01225v1

摘要

arXiv:2502.01225v1 宣告类型: cross 摘要: 在预训练阶段,大型语言模型通常会使用大量数据进行训练,这些数据可能包含一些潜在有害的信息。通过利用这一点,微调攻击可以使模型揭示出此类行为,从而生成有害内容。在本文中,我们重点关注在面对微调攻击时,基于链式思维推理的模型 DeepSeek 表现如何。具体而言,我们探讨了微调如何操纵模型的输出,并加剧其响应的有害性,同时研究链式思维推理与对抗性输入之间的交互作用。通过这项研究,我们旨在揭示基于链式思维推理的模型对微调攻击的脆弱性,以及这对它们的安全性和伦理部署有何影响。