LLM2D

摘要

arXiv:2502.01225v1 宣告类型: cross 摘要: 在预训练阶段，大型语言模型通常会使用大量数据进行训练，这些数据可能包含一些潜在有害的信息。通过利用这一点，微调攻击可以使模型揭示出此类行为，从而生成有害内容。在本文中，我们重点关注在面对微调攻击时，基于链式思维推理的模型 DeepSeek 表现如何。具体而言，我们探讨了微调如何操纵模型的输出，并加剧其响应的有害性，同时研究链式思维推理与对抗性输入之间的交互作用。通过这项研究，我们旨在揭示基于链式思维推理的模型对微调攻击的脆弱性，以及这对它们的安全性和伦理部署有何影响。