摘要
大型语言模型(LLM)在公开发布之前,已经投入大量精力使其行为与人类价值观保持一致。然而,即使经过精心校准的 LLM 仍然容易受到恶意操纵,例如越狱,从而导致意外行为。在这项工作中,我们提出了一种针对 LLM 的自动红队攻击的新型黑盒越狱框架。我们设计了恶意内容隐藏和内存重构,并使用迭代优化算法对 LLM 进行越狱,其灵感来自关于 LLM 的分心性和过度自信现象的研究。对开源和专有 LLM 的广泛越狱实验表明,我们的框架在有效性、可扩展性和可迁移性方面具有优势。我们还评估了现有越狱防御方法在我们攻击中的有效性,并强调了开发更有效和实用的防御策略的迫切需要。