LLM2D

摘要

arXiv:2504.10551v1 类型: cross 摘要: 在学习过程中，经验风险最小化（ERM）模型往往依赖于特征与标签之间的一些虚假相关性，导致出现捷径学习行为，这会削弱其泛化性能的鲁棒性。当前的研究主要集中在识别或减轻单一捷径，但在现实场景中，数据中的线索是多样化且未知的。在实验研究中，我们发现模型在不同程度上依赖于不同的捷径。与弱捷径相比，模型更依赖于强捷径，导致其泛化能力较差。为了解决这些挑战，我们提出了一种名为MiMu的新方法，这是一种基于Transformer的ERM方法，旨在减轻多重捷径学习行为，它结合了自我校准策略和自我改进策略。在源模型中，我们初步提出了自我校准策略，以防止模型过度依赖捷径并做出过于自信的预测。然后，在目标模型中，我们进一步设计了自我改进策略，以减少对多个捷径的依赖。随机掩码策略涉及随机掩蔽部分注意力位置，使目标模型关注多样化的内容，而非集中在固定区域。同时，自适应注意力对齐模块使注意力权重与校准后的源模型对齐，无需后续的注意力图或监督。最后，我们在自然语言处理（NLP）和计算机视觉（CV）领域的广泛实验表明，MiMu在提高泛化性能的鲁棒性方面具有有效性。