摘要
大型语言模型 (LLM) 需要与人类预期相一致,以确保其在大多数应用中的安全性和实用性。对齐是一项具有挑战性、成本高昂的任务,并且需要针对每个 LLM 和对齐标准重复进行。我们建议通过训练对齐器模型来解耦 LLM 和对齐,这些模型可以根据需要用于将任何 LLM 与给定标准对齐,从而也减少对齐对性能的潜在负面影响。我们训练对齐器模型的方案仅依赖于使用(提示)LLM 生成的合成数据,并且可以轻松调整以适应各种对齐标准。我们使用相同的合成数据来训练检查器,即二元错误对齐分类模型,以指导多个对齐器的“小队”。我们的实证结果表明,将对齐器小队应用于各种 LLM(包括聊天对齐模型)时,在多个指令遵循和红队数据集上都取得了持续的改进。