LLM2D

摘要

arXiv:2503.10872v2 宣布类型: 替换-横跨摘要：视觉语言模型（VLMs）展现了令人印象深刻的推断能力，但仍然容易受到能够引发有害或不道德响应的监狱破解攻击的影响。目前的防御方法主要是白盒方法，需要访问模型参数并进行大量修改，这使得它们在很多现实场景中成本高昂且不切实际。虽然已经提出了一些黑盒防御方法，但它们通常会对输入施加约束或需要多次查询，从而在自动驾驶等安全关键任务中限制了其有效性。为了解决这些挑战，我们提出了一种名为**T**extual **A**nchoring for **I**mmunizing **J**ailbreak **I**mages（**TAIJI**）的新颖黑盒防御框架。TAIJI 利用基于关键短语的文本锚定来增强模型评估和减轻嵌入在视觉和文本提示中的有害内容的能力。与现有方法不同，TAIJI 在推断过程中仅需一次查询即可有效运行，同时保留 VLM 在良性任务上的性能。广泛实验表明，TAIJI 显著增强了 VLM 的安全性与可靠性，提供了适用于实际部署的实用且高效的解决方案。