LLM2D

摘要

arXiv:2504.14395v1 Announce Type: cross 摘要：为了开发可信赖的视觉-语言模型（VLMs），解决对抗鲁棒性和幻觉缓解这两个问题至关重要，这两个问题都直接影响到高风险应用（如国防和医疗保健）中的事实准确性。现有方法主要集中在对抗防御或事后幻觉纠正上，存在统一鲁棒性策略的缺口。我们提出了**Hydra**，这是一种适应性的代理框架，通过迭代推理、结构化批评和跨模型验证来增强插件VLMs，从而提高对对抗扰动的抵抗力以及模型固有的错误。Hydra 使用行动-批评循环，它会检索并批评视觉信息，利用链式思考（CoT）和上下文学习（ICL）技术动态优化输出。与静态事后纠正方法不同，Hydra 能适应对抗操纵和模型固有的错误，使其能够抵御恶意扰动和与幻觉相关的信息不准确。我们在四个VLMs、三个幻觉基准、两种对抗攻击策略和两种对抗防御方法上评估了Hydra，在干净和对抗输入上评估了其性能。结果显示，Hydra 在插件VLMs和最先进的去幻觉方法上都超越了它们，即使没有明确的对抗防御，也展示了增强的鲁棒性和事实一致性。通过结合对抗抵抗和幻觉缓解，Hydra 提供了一种可扩展的、无需训练的解决方案，用于提高VLMs在实际应用中的可靠性。