LLM2D

摘要

偏好优化，特别是通过来自人类反馈的强化学习 (RLHF)，在使大型语言模型 (LLM) 符合人类意图方面取得了重大成功。与使用固定数据集进行的离线对齐不同，从人类或 AI 对模型生成的在线反馈收集通常通过迭代过程导致更强大的奖励模型和更好地对齐的 LLM。然而，要获得全局准确的奖励模型，需要进行系统性探索，以生成跨越自然语言广阔空间的不同响应。仅从标准奖励最大化 LLM 中进行随机抽样不足以满足此要求。为了解决这个问题，我们提出了一种双层目标，它乐观地偏向于潜在的高奖励响应，以主动探索分布外区域。通过使用重新参数化的奖励函数解决内部级别问题，由此产生的算法，名为“自探索语言模型”(SELM)，消除了对单独 RM 的需求，并通过简单的目标迭代地更新 LLM。与“直接偏好优化”(DPO) 相比，SELM 目标减少了对看不见的推断的无差别偏爱，并提高了探索效率。我们的实验结果表明，当在 Zephyr-7B-SFT 和 Llama-3-8B-Instruct 模型上微调时，SELM 显着提高了指令遵循基准测试（如 MT-Bench 和 AlpacaEval 2.0）以及不同设置中各种标准学术基准测试的性能。我们的代码和模型可在 https://github.com/shenao-zhang/SELM 获取。