LLM2D
别欺骗我:通过注意力重新分配减轻LMM中的gaslighting效应
Don't Deceive Me: Mitigating Gaslighting through Attention Reallocation in LMMs
作者: Pengkun Jiao, Bin Zhu, Jingjing Chen, Chong-Wah Ngo, Yu-Gang Jiang
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09456v1

摘要

arXiv:2504.09456v1 宣告类型: 新 摘要: 大型多模态模型 (LMMs) 在广泛的任务中展现了显著的能力。然而,它们在用户欺骗行为面前的脆弱性——故意使用误导性或矛盾性的输入——引起了对其在实际应用中的可靠性的关键性担忧。在本文中,我们探讨了一个新颖且具有挑战性的问题,即减轻基于否定的欺骗行为对 LMMs 的负面影响。这种误导性用户的陈述导致了模型准确率的大幅下降。具体地,我们提出了一种无需训练的方法 GasEraser,该方法重新分配了误导性文本标记的注意力权重到语义上显著的视觉区域。通过抑制“注意力陷阱”标记的影响并增加对视觉支持线索的注意力,GasEraser 显著提高了 LMM 的鲁棒性,而无需重新训练或额外的监督。广泛的实验结果表明,GasEraser 在 GaslightingBench 的几个领先开源 LMM 上是有效的。值得注意的是,对于 LLaVA-v1.5-7B,GasEraser 将误导率减少了 48.2%,表明其对于更可靠 LMM 的潜力。