LLM2D

摘要

当前大型语言模型（LLM）的安全对齐范式采用了一种一刀切的方法：模型拒绝与模型提供者认为不安全的任何内容进行交互。这种方法在面对不同文化和地区之间不同的社会规范时缺乏灵活性。此外，用户可能拥有不同的安全需求，使得具有静态安全标准的模型过于严格，难以使用，而且重新对齐成本过高。我们提出了可控安全对齐（CoSA），这是一个旨在使模型适应不同的安全要求而无需重新训练的框架。我们不是对齐一个固定的模型，而是对齐模型以遵循安全配置——作为系统提示的一部分提供的关于所需安全行为的自由形式的自然语言描述。为了调整模型的安全行为，授权用户只需要在推理时修改这些安全配置。为了实现这一点，我们提出了 CoSAlign，一种以数据为中心的 LLM 对齐方法，可以轻松适应不同的安全配置。此外，我们设计了一种新的可控性评估协议，该协议同时考虑了有用性和配置的安全，将它们总结成 CoSA-Score，并构建了 CoSApien，一个由人类编写的基准，包含具有不同安全要求的真实世界 LLM 使用案例以及相应的评估提示。我们证明了 CoSAlign 在包括上下文对齐在内的强大基线之上取得了显著的可控性提升。我们的框架鼓励在 LLM 中更好地表示和适应多元化的人类价值观，从而提高其实用性。