LLM2D
海德拉:一种提升视觉语言模型对抗鲁棒性和减轻幻觉的代理推理方法
Hydra: An Agentic Reasoning Approach for Enhancing Adversarial Robustness and Mitigating Hallucinations in Vision-Language Models
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14395v1

摘要

arXiv:2504.14395v1 Announce Type: cross 摘要:为了开发可信赖的视觉-语言模型(VLMs),解决对抗鲁棒性和幻觉缓解这两个问题至关重要,这两个问题都直接影响到高风险应用(如国防和医疗保健)中的事实准确性。现有方法主要集中在对抗防御或事后幻觉纠正上,存在统一鲁棒性策略的缺口。我们提出了**Hydra**,这是一种适应性的代理框架,通过迭代推理、结构化批评和跨模型验证来增强插件VLMs,从而提高对对抗扰动的抵抗力以及模型固有的错误。Hydra 使用行动-批评循环,它会检索并批评视觉信息,利用链式思考(CoT)和上下文学习(ICL)技术动态优化输出。与静态事后纠正方法不同,Hydra 能适应对抗操纵和模型固有的错误,使其能够抵御恶意扰动和与幻觉相关的信息不准确。我们在四个VLMs、三个幻觉基准、两种对抗攻击策略和两种对抗防御方法上评估了Hydra,在干净和对抗输入上评估了其性能。结果显示,Hydra 在插件VLMs和最先进的去幻觉方法上都超越了它们,即使没有明确的对抗防御,也展示了增强的鲁棒性和事实一致性。通过结合对抗抵抗和幻觉缓解,Hydra 提供了一种可扩展的、无需训练的解决方案,用于提高VLMs在实际应用中的可靠性。