LLM2D
缩小语言模型的应用范围
Reducing the Scope of Language Models
作者: David Yunis, Siyu Huo, Chulaka Gunasekara, Danish Contractor
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2410.21597v2

摘要

arXiv:2410.21597v2 宣布类型: 替换-交叉 摘要:我们现在在各种面向用户的应用程序中部署语言模型。通常,这些部署具有某些特定目的,比如回答关于文档的问题或充当编程助手,但它们需要通用的语言理解能力。在这种情况下,这些模型不应该能够回答与所需行为无关的请求,例如,诗歌生成或关于物理学的问题等。相反,我们希望语言模型只对对应于期望行为的查询进行回答,并拒绝所有其他请求,这我们称之为束掍。我们对从提示到微调再到偏好学习,以及最近提出的一种称为电路断路器(CB)的通用对齐方法的潜在方法进行了全面的经验评估。在三种语言模型系列和广泛的任务中,我们展示了能够束掍语言模型的可能性。我们对多个主题以及细粒度主题的束掍进行了研究。我们删除无关查询的多样性,采用不同的技术组合,进行对抗性评估等。在其他结果中,我们发现,当有多种无关查询示例时,简单的监督微调产生最佳效果,但当这种多样性较低时,电路断路器表现相当出色。通过依次叠加这两种方法可以 often 获得两者的好处。我们希望我们的研究能够作为实践者的束掍语言模型指南。