摘要
基于聊天的语言模型旨在提供帮助,但它们不应遵守用户的每一个请求。虽然大多数现有工作主要关注拒绝“不安全”的查询,但我们认为不遵守的范围应该扩大。我们引入了一个全面的情境化不遵守分类法,描述了模型何时以及如何不应遵守用户请求。我们的分类法涵盖了广泛的类别,包括不完整、不支持、不确定和人性化请求(以及不安全请求)。为了测试语言模型的不遵守能力,我们使用此分类法开发了一个包含 1000 个不遵守提示的新评估套件。我们发现,大多数现有模型在某些先前未充分研究的类别中显示出明显较高的遵从率,例如 GPT-4 错误地遵守了多达 30% 的请求。为了解决这些差距,我们探索了使用合成生成的请求训练集和预期不符合响应的不同训练策略。我们的实验表明,虽然直接微调指令微调模型可能导致过度拒绝和整体能力下降,但使用低秩适配器等参数高效方法有助于在适当的不遵守和其他能力之间取得良好的平衡。