摘要
人工智能中的对齐旨在使模型的响应与人类的偏好和价值观保持一致。在实践中,人类偏好的多面性无意中引入了所谓的“对齐税”——一种妥协,即在一个目标(例如,无害性)中对齐的增强会降低其他目标(例如,帮助性)的性能。然而,现有的对齐技术大多是单向的,导致在各种目标上权衡不佳且灵活性差。为了应对这一挑战,我们认为用明显偏好来为大型语言模型提供依据至关重要。我们引入了可控偏好优化 (CPO),它明确地指定了不同目标的偏好分数,从而引导模型生成满足要求的响应。我们的实验分析表明,对齐后的模型可以提供符合“3H”(帮助性、诚实性、无害性)期望中的各种偏好的响应。此外,通过引入多样化的数据和对齐目标,我们在与单一目标对齐方面超越了基线方法,从而减轻了对齐税的影响,并在多目标对齐方面取得了改进。