LLM2D

摘要

arXiv:2504.01735v1 Announce Type: cross 摘要：大视觉-语言模型（LVLMs），如GPT-4o和LLaVA，最近取得了显著的进展，并越来越多地应用于实际应用中。然而，由于继承了视觉神经网络的敏感性，LVLMs仍然容易受到对抗性攻击的影响，这可能导致错误或恶意的输出。虽然现有的努力利用对抗性微调来增强鲁棒性，但它们通常会在干净的输入上表现出性能下降。在本文中，我们提出了一种新的基于偏好优化的对抗防御策略AdPO，专门针对LVLMs。首次以对抗性训练作为一种偏好优化问题，旨在增强模型在对干净输入生成正常输出的偏好，同时拒绝潜在的误导性输出给对抗性示例。值得注意的是，AdPO通过仅修改图像编码器，例如CLIP ViT，实现了在各种下游任务中在干净和对抗性性能上的优越表现。考虑到训练涉及到大型语言模型（LLMs），计算成本显著增加。我们验证了在较小的LVLMs上进行训练，然后转移到更大的模型上可以获得具有竞争力的性能，同时维持与基线方法相当的效率。我们的全面实验确认了所提出的AdPO的有效性，这为未来的对抗性防御研究提供了新的视角。