LLM2D

摘要

随着大型语言模型（LLM）在自然语言处理任务（NLP）中取得突破，多模态技术变得极其流行。然而，研究表明，多模态NLP容易受到对抗性攻击，模型的输出可以通过对输入的扰动而发生巨大变化。尽管在计算机视觉和NLP模型中都提出了一些防御技术，但模型的多模态鲁棒性尚未得到充分探索。本文研究了通过限制前K个softmax输出，修改预训练多模态模型损失函数所提供的对抗鲁棒性。基于评估和评分，我们的实验表明，经过微调后，预训练模型的对抗鲁棒性可以显著提高，能够抵抗常见的攻击。未来的研究方向包括：输出多样性、泛化能力以及此类损失函数的鲁棒性-性能权衡。本文被接收后，我们将公开代码。