LLM2D

摘要

大型语言模型 (LLM) 需要与人类预期相一致，以确保其在大多数应用中的安全性和实用性。对齐是一项具有挑战性、成本高昂的任务，并且需要针对每个 LLM 和对齐标准重复进行。我们建议通过训练对齐器模型来解耦 LLM 和对齐，这些模型可以根据需要用于将任何 LLM 与给定标准对齐，从而也减少对齐对性能的潜在负面影响。我们训练对齐器模型的方案仅依赖于使用（提示）LLM 生成的合成数据，并且可以轻松调整以适应各种对齐标准。我们使用相同的合成数据来训练检查器，即二元错误对齐分类模型，以指导多个对齐器的“小队”。我们的实证结果表明，将对齐器小队应用于各种 LLM（包括聊天对齐模型）时，在多个指令遵循和红队数据集上都取得了持续的改进。