LLM2D
-focus on this, not that! 用自适应特征指定引导大语言模型-
Focus On This, Not That! Steering LLMs With Adaptive Feature Specification
作者: Tom A. Lamb, Adam Davies, Alasdair Paren, Philip H. S. Torr, Francesco Pinto
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2410.22944v3

摘要

arXiv:2410.22944v3 更新类型: 交叉替换 摘要:尽管指令调优(IT)在训练大规模语言模型(LLMs)以执行任意用户指定的任务方面取得了成功,但这些模型仍然会利用从训练数据中学到的虚假或有偏见的特征,在新环境中部署时会出现不希望的行为。在本文中,我们引入了焦点指令调优(FIT),旨在训练LLMs使其在响应时聚焦于特定特征而忽略其他特征,从而根据指定的特征产生不同的行为。在几个实验设置中,我们展示了聚焦调优模型可以在推理时根据不同特征进行适应性引导:例如,通过聚焦于任务因果特征并忽略虚假特征可以提高稳健性,通过忽略人口统计类别可以减轻社会偏见。此外,FIT可以在新环境中引导行为,在分布转移下进行泛化,并在推理时应对新的未见过的特征,从而促进更稳健、更公平和更可控的大规模语言模型应用在现实环境中的部署。