LLM2D
响应微调:无需指令的对齐大型语言模型
Response Tuning: Aligning Large Language Models without Instruction
作者: Seokhyun An, Hyounghun Kim
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02465v1

摘要

指令微调——使用指令-响应对进行监督微调——是将预训练的大语言模型(LLM)转变为有用且安全的聊天助手的基础步骤。我们的假设是,鉴于预训练LLM固有的能力,建立一个充分的输出空间可以实现这种转变。为了验证这一点,我们提出了响应微调(RT),它消除了指令微调中的指令条件步骤,而只关注响应空间监督。我们的实验表明,仅使用响应训练的RT模型能够有效地响应各种指令,并表现出与其指令微调对应模型相当的有用性。此外,我们观察到,控制训练响应分布可以显著提高用户偏好或引发目标行为,例如拒绝对不安全查询的协助。我们的发现阐明了在对齐中建立充分输出空间的作用,突出了预训练LLM广泛固有能力的潜力。