LLM2D
AdPO:通过偏好优化增强大型视觉-语言模型的对抗鲁棒性
AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization
作者: Chaohu Liu, Tianyi Gui, Yu Liu, Linli Xu
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01735v1

摘要

arXiv:2504.01735v1 Announce Type: cross 摘要:大视觉-语言模型(LVLMs),如GPT-4o和LLaVA,最近取得了显著的进展,并越来越多地应用于实际应用中。然而,由于继承了视觉神经网络的敏感性,LVLMs仍然容易受到对抗性攻击的影响,这可能导致错误或恶意的输出。虽然现有的努力利用对抗性微调来增强鲁棒性,但它们通常会在干净的输入上表现出性能下降。在本文中,我们提出了一种新的基于偏好优化的对抗防御策略AdPO,专门针对LVLMs。首次以对抗性训练作为一种偏好优化问题,旨在增强模型在对干净输入生成正常输出的偏好,同时拒绝潜在的误导性输出给对抗性示例。值得注意的是,AdPO通过仅修改图像编码器,例如CLIP ViT,实现了在各种下游任务中在干净和对抗性性能上的优越表现。考虑到训练涉及到大型语言模型(LLMs),计算成本显著增加。我们验证了在较小的LVLMs上进行训练,然后转移到更大的模型上可以获得具有竞争力的性能,同时维持与基线方法相当的效率。我们的全面实验确认了所提出的AdPO的有效性,这为未来的对抗性防御研究提供了新的视角。