LLM2D

摘要

arXiv:2501.18663v1 安全公告类型：交叉摘要：大型语言模型（LLMs）大大促进了人类生活，而提示工程则提高了这些模型的效率。然而，近年来，被提示工程技术赋能的攻击日益增多，导致隐私泄露、延迟增加和系统资源浪费等问题。尽管提出了基于人类反馈强化学习（RLHF）的安全微调方法来调整LLMs，但现有的安全机制无法应对变幻莫测的提示攻击，突显了在提示上进行安全检测的必要性。在本文中，我们考虑了边缘-云大型语言模型（EC-LLM）系统在各种提示攻击下的提示安全性、服务延迟和系统资源优化。为了增强提示安全性，我们提出了一种基于向量数据库的轻量级攻击检测器。我们将联合提示检测、延迟和资源优化的问题形式化为多阶段动态贝叶斯博弈模型。在每一阶段，通过贝叶斯更新预测恶意任务的数量并更新信念，以确定均衡策略。我们将在一个实际部署的EC-LLM系统上评估提出的方案，并且结果显示，我们的方法提供了增强的安全性，减少了良性用户的服务延迟，并且减少了系统资源消耗，优于现有算法。