摘要
arXiv:2408.07877v4 宣告类型: 更改
摘要: 深度强化学习(DRL)提供了一种强大的框架,用于训练AI代理与人类伙伴进行协调。然而,DRL在人类-AI协调(HAIC)中面临着两个关键挑战:稀疏奖励和不可预测的人类行为。这些挑战显著限制了DRL识别有效的协调策略的能力,因为其优化探索和利用的能力受到了限制。为了解决这些限制,我们提出了一种创新的行为和上下文感知奖励(BCR),通过利用HAIC中的人类行为和上下文信息来优化探索和利用。我们的BCR由两个部分组成:(i) 一种新颖的双内在奖励方案,以增强探索。该方案由AI自我激励的内在奖励和人类动机的内在奖励组成,设计用于通过基于对数的方法增加对稀疏奖励的捕捉;以及(ii) 一种新的设计奖励的上下文感知加权机制,以改善利用。这种机制通过利用可以反映HAIC中学习演变的上下文信息,帮助AI代理优先选择更好地与人类合作伙伴协调的动作。在Overcooked环境中的广泛模拟表明,与最先进的基线相比,我们的方法可以将累积稀疏奖励提高约20%,并将收敛时间减少约67%。