LLM2D
评估后训练语言模型对虚假相关性的鲁棒性
Assessing Robustness to Spurious Correlations in Post-Training Language Models
作者: Julia Shuieh, Prasann Singhal, Apaar Shanker, John Heyer, George Pu, Samuel Denton
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.05704v1

摘要

arXiv:2505.05704v1 宣告类型: cross 摘要:监督和基于偏好的微调技术已经成为将大型语言模型(LLMs)与用户意图和正确性标准对齐的流行方法。然而,现实世界的训练数据中常常存在虚假的相关性——这些虚假的相关性可能源于偏差、数据集中的结构或其它“捷径”特征——这些虚假的相关性可能损害模型的性能或泛化能力。在本文中,我们在多种合成任务和虚假相关性条件下系统地评估了三种后训练算法——监督微调(SFT)、直接偏好优化(DPO)和KTO(凯恩曼-特维斯基优化)。我们的任务涵盖了数学推理、指令约束以及文档导向的问题回答。我们改变了虚假相关性的程度(10% vs. 90%)并探讨了两种形式的结构:特征歧义和分发狭窄。我们的结果表明,模型在高度虚假相关的情况下通常但并不总是表现下降。偏好导向的方法(DPO/KTO)在数学推理任务中表现出相对较高的鲁棒性。相比之下,SFT在复杂且情境密集的任务中保持着更强的性能。这些发现表明,没有一种后训练策略在所有情景下都能普遍表现最好;最佳选择取决于目标任务的类型以及虚假相关性的性质。