LLM2D

摘要

arXiv:2503.23483v1 类型: cross 摘要: 大型语言模型（LLMs）在许多自然语言处理任务中表现出色，但在很大程度上表现出序依赖性：简单地重新排序具有语义相同性的标记（例如，多项选择问题中的答案选项）会导致不一致的预测。最近的工作提出了基于集的方法（Set-Based Prompting，SBP）来删除指定标记子集中的顺序信息，从而减轻位置偏差。然而，在基础模型上应用SBP会诱导出一种分布外的输入格式，这可能会降低分布内性能。我们提出了一种微调策略，将SBP整合到训练过程中，“拉近”这些集格式的提示与模型的训练流形。我们展示了SBP可以通过微调整合到模型中。我们的实验在分布内（MMLU）和分布外（CSQA，ARC挑战）的多项选择任务中表明，SBP微调显著提高了准确性和对答案顺序排列的鲁棒性，同时保留了更广泛的语言建模能力。我们讨论了防变模型的广泛含义，并概述了构建更公平、更一致的LLMs的未来方向。