摘要
arXiv:2505.02118v3 宣告类型: 修订
摘要:本研究调查了一种基于合作博弈的自我理性化框架,其中生成器最初从原始输入中提取最具有信息性的片段,随后的预测器则利用选定的子集作为输入。生成器和预测器通过协作训练以最大化预测准确性。在本文中,我们首先揭示了一个潜在的问题:这种合作博弈可能会无意中在理性化提取过程中引入采样偏差。具体而言,生成器可能会无意中在所选的理由候选和标签之间建立错误的相关性,即使在原始数据集中的它们在语义上是无关的。随后,我们利用详细的理论分析和实验证据解释了这种偏差的来源。我们的研究结果表明可以通过攻击来检查这些相关性的一个方向,并在此基础上进一步引入一条指令,以防止预测器学习这些相关性。通过在六个文本分类数据集和两个图分类数据集上使用三种网络架构(GRUs、BERT和GCN)进行的实验,我们展示了我们的方法不仅显著优于最近的理性化方法,而且在某些情况下甚至优于一个代表性的大型语言模型(llama3.1-8b-instruct)。