LLM2D

摘要

arXiv:2410.21597v2 宣布类型: 替换-交叉摘要：我们现在在各种面向用户的应用程序中部署语言模型。通常，这些部署具有某些特定目的，比如回答关于文档的问题或充当编程助手，但它们需要通用的语言理解能力。在这种情况下，这些模型不应该能够回答与所需行为无关的请求，例如，诗歌生成或关于物理学的问题等。相反，我们希望语言模型只对对应于期望行为的查询进行回答，并拒绝所有其他请求，这我们称之为束掍。我们对从提示到微调再到偏好学习，以及最近提出的一种称为电路断路器（CB）的通用对齐方法的潜在方法进行了全面的经验评估。在三种语言模型系列和广泛的任务中，我们展示了能够束掍语言模型的可能性。我们对多个主题以及细粒度主题的束掍进行了研究。我们删除无关查询的多样性，采用不同的技术组合，进行对抗性评估等。在其他结果中，我们发现，当有多种无关查询示例时，简单的监督微调产生最佳效果，但当这种多样性较低时，电路断路器表现相当出色。通过依次叠加这两种方法可以 often 获得两者的好处。我们希望我们的研究能够作为实践者的束掍语言模型指南。