摘要
arXiv:2505.02118v1
公告类型: 新闻
摘要: 本研究探讨了一种基于协作博弈的自我理性化框架,其中生成器最初从原始输入中提取最具信息量的片段,随后的预测器利用选定的子集作为输入。生成器和预测器合作训练以最大化预测准确性。在本文中,我们首先揭示了一个潜在的问题:这种协作博弈可能会无意中在理性化提取过程中引入取样偏差。具体来说,生成器可能无意中在选定的候选理性化与标签之间创建了一个错误的相关性,即使它们在原始数据集中是语义无关的。随后,我们通过详细的理论分析和实验证据阐明了这种偏差的根源。我们的发现提出了通过攻击来检查这些相关性的方向,并在此基础上引入了一项指令以防止预测器学习这些相关性。通过在六个文本分类数据集和两个图分类数据集上使用三种网络架构(GRUs、BERT 和 GCN)进行的实验,我们展示了我们的方法不仅显著优于近期的理性化方法,而且在某些情况下甚至达到了一个代表性的大语言模型(llama3.1-8b-instruct)相当甚至更好的结果。