LLM2D

摘要

指令微调——使用指令-响应对进行监督微调——是将预训练的大语言模型（LLM）转变为有用且安全的聊天助手的基础步骤。我们的假设是，鉴于预训练LLM固有的能力，建立一个充分的输出空间可以实现这种转变。为了验证这一点，我们提出了响应微调（RT），它消除了指令微调中的指令条件步骤，而只关注响应空间监督。我们的实验表明，仅使用响应训练的RT模型能够有效地响应各种指令，并表现出与其指令微调对应模型相当的有用性。此外，我们观察到，控制训练响应分布可以显著提高用户偏好或引发目标行为，例如拒绝对不安全查询的协助。我们的发现阐明了在对齐中建立充分输出空间的作用，突出了预训练LLM广泛固有能力的潜力。