LLM2D

摘要

arXiv:2502.15145v1 交叉公告类型摘要：强化学习与人类反馈（RLHF）是一种广泛使用的微调方法，它将机器学习模型，特别是语言模型（LM）与人类偏好对齐。通常有多个目标驱动这种偏好，因此人类更易于表达单个目标的比较而非两个选择之间的整体偏好，例如比较两篇论文在其新颖性、清晰度和正确性等方面。多目标RLHF（MORLHF）旨在利用单个目标偏好反馈，并通过将这些目标聚合为一个统一的目标来实现帕累托最优。然而，几乎所有的先前工作都依赖于线性聚合，排除了偏好特定目标（如最差目标）的政策。唯一使用非线性聚合的方法由于其基于奖励的性质和聚合参数变动需要重新训练而计算成本高昂。在这项工作中，我们通过将非线性聚合最大化问题转化为一系列子问题来解决这一局限。每个子问题仅涉及线性聚合，从而使问题变得计算高效。我们进一步扩展了我们的框架以处理多组情境，其中每组具有不同的目标权重。我们的方法使共识的实现或在所有组中最大化聚合目标成为可能。从理论上讲，我们证明了我们的算法框架实现了亚线性遗憾，并且可以轻松适应无奖励算法。从经验上讲，利用我们理论上的见解，我们提出了一种几乎无需训练的算法，只要获得了单个目标的最优策略。