摘要
arXiv:2408.00137v2 宣告类型: replace-cross
摘要:一个二元决策任务,例如是/否问题或答案验证,反映了用户对自己在特定问题上决策正确性的确认需求这一重要的现实场景。在本工作中,我们观察到语言模型在复杂推理任务中的二元决策中表现出负偏见。基于我们的观察以及关于基于注意力的模型动态的推理,我们提出了一种负权值注意力分数(NAS)来系统地和定量地表述这种负偏见。基于NAS,我们识别了那些在指示中关注负词的注意力头,作为二元决策的答案候选,不考虑提示中的问题,并验证了这些注意力头与负偏见的关联。此外,我们提出了负权值注意力分数对齐(NASA)方法,这是一种参数高效的微调技术,用于解决提取出的具有负偏见的注意力头。来自各种推理任务领域和大型模型搜索空间的实验结果表明,NASA在减少由负偏见引起的精确度和召回率之间的差距的同时,保留了它们的一般化能力。