LLM2D

摘要

arXiv:2410.02220v4 宣布类型: 替换-交叉摘要：大规模语言模型（LLMs）通过微调广泛应用于下游应用，这一过程称为自定义。然而，最近的研究发现，在这个过程中存在一个漏洞，即恶意样本可以损害LLMs的稳健性并放大有害行为——这种攻击通常称为狱霸攻击。为应对这一挑战，我们提出了一种适应性的数据策展方法，允许任何文本被策展，以增强其在自定义过程中的有效性，对抗有害样本。为避免需要额外的防御模块，我们进一步引入了一个覆盖自定义生命周期全程的综合缓解框架：在自定义之前，使LLMs免疫以对抗未来的狱霸攻击尝试；在自定义过程中，减轻风险；在自定义之后，恢复受损害的模型。实验结果表明，狱霸攻击效应显著减少，生成安全响应的成功率达到100%。通过将适应性数据策展与基于生命周期的缓解策略相结合，这项工作代表了缓解狱霸攻击风险并确保LLMs安全自适应的重要一步。