LLM2D

摘要

大型语言模型（LLM）在公开发布之前，已经投入大量精力使其行为与人类价值观保持一致。然而，即使经过精心校准的 LLM 仍然容易受到恶意操纵，例如越狱，从而导致意外行为。在这项工作中，我们提出了一种针对 LLM 的自动红队攻击的新型黑盒越狱框架。我们设计了恶意内容隐藏和内存重构，并使用迭代优化算法对 LLM 进行越狱，其灵感来自关于 LLM 的分心性和过度自信现象的研究。对开源和专有 LLM 的广泛越狱实验表明，我们的框架在有效性、可扩展性和可迁移性方面具有优势。我们还评估了现有越狱防御方法在我们攻击中的有效性，并强调了开发更有效和实用的防御策略的迫切需要。