LLM2D

摘要

arXiv:2505.02118v2 公告类型: 新增摘要: 此研究探讨了一种基于合作博弈的自我理性化框架，其中生成器首先从原始输入中提取最具信息量的片段，随后的预测器使用选定的子集作为输入。生成器和预测器共同训练以最大化预测准确性。在这篇论文中，我们首先揭示了一个潜在的问题：这种合作博弈可能会无意中在理性提取期间引入采样偏差。具体来说，生成器可能会无意识地在选定的理性候选者和标签之间创建不正确的相关性，即使在原始数据集中它们在语义上是无关的。随后，我们使用详细的理论分析和实证证据阐述了这种偏差的来源。我们的研究结果表明，可以通过攻击的方式进行检查这些相关性，基于此，我们进一步引入了一项指令以防止预测器学习这些相关性。通过在六个文本分类数据集和两个图分类数据集上使用三种网络架构（GRUs、BERT 和 GCN）进行的实验中，我们展示了该方法不仅显著优于近期的合理化方法，而且在某些情况下甚至达到了代表性的LLM（llama3.1-8b-instruct）可比或更优的结果。