摘要
arXiv:2503.23483v1 类型: cross
摘要: 大型语言模型(LLMs)在许多自然语言处理任务中表现出色,但在很大程度上表现出序依赖性:简单地重新排序具有语义相同性的标记(例如,多项选择问题中的答案选项)会导致不一致的预测。最近的工作提出了基于集的方法(Set-Based Prompting,SBP)来删除指定标记子集中的顺序信息,从而减轻位置偏差。然而,在基础模型上应用SBP会诱导出一种分布外的输入格式,这可能会降低分布内性能。我们提出了一种微调策略,将SBP整合到训练过程中,“拉近”这些集格式的提示与模型的训练流形。我们展示了SBP可以通过微调整合到模型中。我们的实验在分布内(MMLU)和分布外(CSQA,ARC挑战)的多项选择任务中表明,SBP微调显著提高了准确性和对答案顺序排列的鲁棒性,同时保留了更广泛的语言建模能力。我们讨论了防变模型的广泛含义,并概述了构建更公平、更一致的LLMs的未来方向。