LLM2D

摘要

arXiv:2412.19394v2 Announce Type: replace-cross 摘要：自动回归大规模语言模型（LLMs）在许多现实任务中表现出色。然而，这些LLMs的新范式也暴露了新的威胁。在本文中，我们探讨了它们对推理成本攻击的易感性，恶意用户通过精心构建Engorgio提示来故意增加推理过程的计算成本和延迟。我们设计了Engorgio，这是一种新的方法论，以高效地生成对抗性的Engorgio提示，影响目标LLM的服务可用性。Engorgio有以下两项技术贡献。（1）我们使用参数化的分布来跟踪LLMs的预测轨迹。（2）针对LLMs推理过程的自回归特性，我们提出了新型的损失函数，以稳定地抑制一个特定标记的出现，该标记的出现将中断LLM的生成过程。我们对参数范围从125M到30B的13个开源LLM进行了广泛的实验。结果显示，Engorgio提示可以在白箱场景中成功诱导LLM生成异常长的输出（即，比输出长度限制的90%+约长2-13倍），我们的实际实验进一步证明了Engorgio对LLM服务的威胁，即使在计算资源有限的情况下。代码已发布在：https://github.com/jianshuod/Engorgio-prompt。