LLM2D

摘要

arXiv:2504.09712v1 类别：交叉学科摘要：LLM 捅破安全挑战是一个普遍存在的问题。鉴于这个问题目前尚未找到解决办法，我们建议将目标集中在一个关键的失败机制上：安全在语义等价输入上的泛化失败。我们进一步通过要求攻击具有研究所需的可处理性特性来聚焦目标：可解释性、模型间的可迁移性，以及目标间的可迁移性。在这一框架内，我们通过发现针对多回合、多图像和翻译攻击的新漏洞来进行红队测试。这些攻击的设计使其与单回合、单图像或未翻译的对应版本在语义上等价，从而使得系统性对比成为可能；我们展示了不同的结构导致了不同的安全结果。随后，我们提出了这种框架的潜在应用，通过提出一种结构重写护栏（Structure Rewriting Guardrail）的方式，将输入转换为更有利于安全性评估的结构。这种护栏显著提高了对有害输入的拒绝，同时避免过度拒绝良性输入。因此，通过界定这一中间挑战——比普遍防御更可处理，但对长期安全至关重要——我们强调了AI安全研究中的一个关键里程碑。