LLM2D

摘要

arXiv:2408.07877v4 宣告类型: 更改摘要: 深度强化学习(DRL)提供了一种强大的框架，用于训练AI代理与人类伙伴进行协调。然而，DRL在人类-AI协调(HAIC)中面临着两个关键挑战：稀疏奖励和不可预测的人类行为。这些挑战显著限制了DRL识别有效的协调策略的能力，因为其优化探索和利用的能力受到了限制。为了解决这些限制，我们提出了一种创新的行为和上下文感知奖励(BCR)，通过利用HAIC中的人类行为和上下文信息来优化探索和利用。我们的BCR由两个部分组成：(i) 一种新颖的双内在奖励方案，以增强探索。该方案由AI自我激励的内在奖励和人类动机的内在奖励组成，设计用于通过基于对数的方法增加对稀疏奖励的捕捉；以及(ii) 一种新的设计奖励的上下文感知加权机制，以改善利用。这种机制通过利用可以反映HAIC中学习演变的上下文信息，帮助AI代理优先选择更好地与人类合作伙伴协调的动作。在Overcooked环境中的广泛模拟表明，与最先进的基线相比，我们的方法可以将累积稀疏奖励提高约20%，并将收敛时间减少约67%。