LLM2D

摘要

arXiv:2408.12130v3 宣告类型: 替换摘要：基于偏好的强化学习（PbRL）通过将人类偏好直接用作奖励信号而脱颖而出，消除了复杂的奖励工程的需求。然而，尽管具有这一潜力，传统的基于偏好的强化学习方法往往受到段落不可区分性的限制，这阻碍了学习过程。在本文中，我们引入了技能增强偏好优化算法（S-EPOA），通过将技能机制整合到偏好学习框架中来解决段落不可区分性问题。具体而言，我们首先进行无监督预训练以学习有用技能。然后，我们提出了一个新的查询选择机制，以在学习到的技能空间中平衡信息增益和可区分性。在包括机器人操作和运动等任务的一系列实验中，结果表明，S-EPOA 在稳健性和学习效率方面显著优于传统基于偏好的强化学习方法。结果突出显示了技能驱动学习在克服段落不可区分性带来的挑战方面的有效性。