LLM2D
结构安全性泛化问题
The Structural Safety Generalization Problem
作者: Julius Broomfield, Tom Gibbs, Ethan Kosak-Hine, George Ingebretsen, Tia Nasir, Jason Zhang, Reihaneh Iranmanesh, Sara Pieri, Reihaneh Rabbany, Kellin Pelrine
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09712v1

摘要

arXiv:2504.09712v1 类别:交叉学科 摘要:LLM 捅破安全挑战是一个普遍存在的问题。鉴于这个问题目前尚未找到解决办法,我们建议将目标集中在一个关键的失败机制上:安全在语义等价输入上的泛化失败。我们进一步通过要求攻击具有研究所需的可处理性特性来聚焦目标:可解释性、模型间的可迁移性,以及目标间的可迁移性。在这一框架内,我们通过发现针对多回合、多图像和翻译攻击的新漏洞来进行红队测试。这些攻击的设计使其与单回合、单图像或未翻译的对应版本在语义上等价,从而使得系统性对比成为可能;我们展示了不同的结构导致了不同的安全结果。随后,我们提出了这种框架的潜在应用,通过提出一种结构重写护栏(Structure Rewriting Guardrail)的方式,将输入转换为更有利于安全性评估的结构。这种护栏显著提高了对有害输入的拒绝,同时避免过度拒绝良性输入。因此,通过界定这一中间挑战——比普遍防御更可处理,但对长期安全至关重要——我们强调了AI安全研究中的一个关键里程碑。