LLM2D

摘要

基于人类反馈的强化学习（RLHF）是将大型语言模型与人类价值观对齐的一种广泛采用的方法。然而，RLHF依赖于一个用有限数量的人类偏好数据训练的奖励模型，这可能导致预测不准确。结果，RLHF可能会产生与人类价值观不符的输出。为了减轻这个问题，我们提出了一种奖励集成方法，使奖励模型能够做出更准确的预测。由于使用基于大型语言模型的奖励模型集成在计算和资源方面可能代价高昂，我们探索了高效的集成方法，包括线性层集成和基于LoRA的集成。根据经验，我们使用集成的奖励模型运行最佳-N算法和近端策略优化算法，并验证我们的集成方法有助于提高RLHF输出的对齐性能。