摘要
arXiv:2412.19394v2 Announce Type: replace-cross
摘要:自动回归大规模语言模型(LLMs)在许多现实任务中表现出色。然而,这些LLMs的新范式也暴露了新的威胁。在本文中,我们探讨了它们对推理成本攻击的易感性,恶意用户通过精心构建Engorgio提示来故意增加推理过程的计算成本和延迟。我们设计了Engorgio,这是一种新的方法论,以高效地生成对抗性的Engorgio提示,影响目标LLM的服务可用性。Engorgio有以下两项技术贡献。(1)我们使用参数化的分布来跟踪LLMs的预测轨迹。(2)针对LLMs推理过程的自回归特性,我们提出了新型的损失函数,以稳定地抑制一个特定标记的出现,该标记的出现将中断LLM的生成过程。我们对参数范围从125M到30B的13个开源LLM进行了广泛的实验。结果显示,Engorgio提示可以在白箱场景中成功诱导LLM生成异常长的输出(即,比输出长度限制的90%+约长2-13倍),我们的实际实验进一步证明了Engorgio对LLM服务的威胁,即使在计算资源有限的情况下。代码已发布在:https://github.com/jianshuod/Engorgio-prompt。