摘要
arXiv:2505.01315v1 攻击类型:跨平台
摘要:近期大型语言模型(LLM)的使用增长使其容易受到复杂的对抗性攻击、误导性的提示以及编码的恶意输入的影响。现有的防御措施通常需要重新训练模型,这在计算上是非常昂贵的,且对于部署来说也不实际。无需重新训练或微调,本研究提出了一种独特的防御框架,使LLMs能够自行识别、过滤和防御对抗性或恶意输入。该建议框架主要包括两个主要部分:(1)一个提示过滤模块,利用复杂的自然语言处理(NLP)技术,包括零样本分类、关键词分析以及编码内容检测(例如,base64、十六进制编码、URL编码),来检测、解码并分类有害输入;以及(2)一个摘要模块,处理并总结对抗性研究文献,以提供给LLM上下文感知的防御知识。通过融合文本提取、总结和有害提示分析,该方法增强了LLMs对抗对抗性利用的抵抗力。根据实验结果,该综合技术在检测有害模式、操控性语言结构和编码提示方面有98.71%的成功率。通过使用少量的对抗性研究文献作为上下文,该方法还允许模型在更高的脱逃攻击抵抗力和拒绝率的情况下正确响应有害输入。在保持LLM回应质量的同时,该框架显著提高了LLMs对恶意滥用的抵抗力,证明了其作为一种快速简便的替代重新训练基于的防御的有效性。