摘要
arXiv:2505.01315v2 声明类型: replace-cross
摘要:最近大语言模型的使用增长使其容易受到复杂的对抗性攻击、操控性提示和编码恶意输入的影响。现有的应对措施通常需要重新训练模型,这在计算上成本高昂且在部署上不现实。无需重新训练或微调,本研究提出了一种独特的防御范式,使大语言模型能够自行识别、过滤和防御对抗性或恶意输入。该建议框架有两个主要部分:(1) 一个提示过滤模块,使用先进的自然语言处理 (NLP) 技术,包括零样本分类、关键词分析和编码内容检测(例如 base64、十六进制、URL 编码),以检测、解码和分类有害输入;(2) 一个摘要模块,处理并总结对抗性研究文献,为大语言模型提供上下文相关的防御知识。该方法通过融合文本提取、摘要和有害提示分析,增强了大语言模型对对抗性利用的抵抗力。实验结果显示,该集成方法在识别有害模式、操控性语言结构和编码提示方面的成功率为 98.71%。通过利用少量对抗性研究文献作为上下文,该方法还使模型能够以更高的脱逃抵抗率和拒绝率正确响应有害输入。在保持大语言模型回复质量的前提下,该框架大大增强了大语言模型对恶意滥用的抵抗力,充分展示了其作为耗时、重训练基线防御快速简便替代方案的有效性。