LLM2D
MiMu: 减轻 transformers 的多重捷径学习行为
MiMu: Mitigating Multiple Shortcut Learning Behavior of Transformers
作者: Lili Zhao, Qi Liu, Wei Chen, Liyi Chen, Ruijun Sun, Min Hou, Yang Wang, Shijin Wang
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10551v1

摘要

arXiv:2504.10551v1 类型: cross 摘要: 在学习过程中,经验风险最小化(ERM)模型往往依赖于特征与标签之间的一些虚假相关性,导致出现捷径学习行为,这会削弱其泛化性能的鲁棒性。当前的研究主要集中在识别或减轻单一捷径,但在现实场景中,数据中的线索是多样化且未知的。在实验研究中,我们发现模型在不同程度上依赖于不同的捷径。与弱捷径相比,模型更依赖于强捷径,导致其泛化能力较差。为了解决这些挑战,我们提出了一种名为MiMu的新方法,这是一种基于Transformer的ERM方法,旨在减轻多重捷径学习行为,它结合了自我校准策略和自我改进策略。在源模型中,我们初步提出了自我校准策略,以防止模型过度依赖捷径并做出过于自信的预测。然后,在目标模型中,我们进一步设计了自我改进策略,以减少对多个捷径的依赖。随机掩码策略涉及随机掩蔽部分注意力位置,使目标模型关注多样化的内容,而非集中在固定区域。同时,自适应注意力对齐模块使注意力权重与校准后的源模型对齐,无需后续的注意力图或监督。最后,我们在自然语言处理(NLP)和计算机视觉(CV)领域的广泛实验表明,MiMu在提高泛化性能的鲁棒性方面具有有效性。