摘要
arXiv:2501.18663v1 安全公告类型:交叉
摘要:大型语言模型(LLMs)大大促进了人类生活,而提示工程则提高了这些模型的效率。然而,近年来,被提示工程技术赋能的攻击日益增多,导致隐私泄露、延迟增加和系统资源浪费等问题。尽管提出了基于人类反馈强化学习(RLHF)的安全微调方法来调整LLMs,但现有的安全机制无法应对变幻莫测的提示攻击,突显了在提示上进行安全检测的必要性。在本文中,我们考虑了边缘-云大型语言模型(EC-LLM)系统在各种提示攻击下的提示安全性、服务延迟和系统资源优化。为了增强提示安全性,我们提出了一种基于向量数据库的轻量级攻击检测器。我们将联合提示检测、延迟和资源优化的问题形式化为多阶段动态贝叶斯博弈模型。在每一阶段,通过贝叶斯更新预测恶意任务的数量并更新信念,以确定均衡策略。我们将在一个实际部署的EC-LLM系统上评估提出的方案,并且结果显示,我们的方法提供了增强的安全性,减少了良性用户的服务延迟,并且减少了系统资源消耗,优于现有算法。