LLM2D
人机协作中通过奖励偏好融入人类灵活性
Incorporating Human Flexibility through Reward Preferences in Human-AI Teaming
作者: Siddhant Bhambri, Mudit Verma, Upasana Biswas, Anil Murthy, Subbarao Kambhampati
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2312.14292v2

摘要

基于偏好的强化学习 (PbRL) 在单智能体环境中取得了重大进展,但尚未在多智能体框架中进行研究。另一方面,在确保任务成功完成的同时对多个智能体之间的合作进行建模,特别是人机协作环境,是一个具有挑战性的问题。为此,我们首次对多智能体 PbRL 进行了研究,将单智能体 PbRL 扩展到双智能体协作环境,并将其表述为一个人机 PbRL 合作博弈,其中 RL 智能体询问环路中的人类以引出任务目标和人类对联合团队行为的偏好。在这种博弈公式下,我们首先引入了“人类灵活性”的概念,根据人类是否更愿意遵循固定策略或动态适应 RL 智能体来评估团队绩效。其次,我们研究了 RL 智能体对人类策略的不同访问权限。我们重点介绍了这两个维度上的一个特例,我们称之为“指定编排”,其中人类的灵活性最低,智能体可以完全访问人类策略。我们通过一个游戏化的用户研究证明了考虑人类灵活性的必要性和指定编排的实用性。我们通过基于机器人运动的领域评估了最先进的 PbRL 算法在人机协作设置中的表现,这些领域明确要求强制合作。我们的研究结果强调了 PbRL 在改变人类灵活性以及智能体对人类策略的访问权限方面所面临的挑战。最后,我们从用户研究和实证结果中得出见解,并得出结论,指定编排可以被视为未来人机协作场景中 PbRL 性能的上限。