LLM2D

摘要

arXiv:2410.08776v1 举报类型: 跨平台摘要：随着大型语言模型（LLMs）的快速发展，在内容安全性检测领域出现了大量成熟的LLM应用。然而，我们发现LLMs在安全检测代理方面表现出盲目的信任。一般而言，这些LLMs可以通过利用这一漏洞被黑客们所操控。因此，本文提出了一种名为Feign Agent Attack（F2A）的攻击方法。通过这种方式的恶意伪造方法，在提示中添加虚假的安全检测结果，可以绕过LLMs的防御机制，从而获取有害内容并劫持正常的对话。随后，进行了一系列实验。在这些实验中，分析并展示了F2A对LLMs的劫持能力，探究了LLMs为何会盲目信任安全检测结果的根本原因。实验涉及了各种场景，在这些场景中，虚假的安全检测结果被注入到提示中，并且通过密切关注响应来了解漏洞的严重程度。此外，本文还提供了一个合理的方法来应对这种攻击，强调LLMs对于增强代理的结果进行批判性评估的重要性，以防止生成有害内容。通过这种方式，可以显著提高可靠性和安全性，保护LLMs免受F2A的攻击。