LLM2D
一种Minimax方法的即兴团队协作
A Minimax Approach to Ad Hoc Teamwork
作者: Victor Villin, Thomas Kleine Buening, Christos Dimitrakakis
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.02377v1

摘要

arXiv:2502.02377v1 宣告类型: 新 摘要: 我们提出了一种最小最大-Bayes 方法来优化Ad Hoc 团队合作(AHT),以在合作伙伴的对抗先验下优化政策,并明确考虑部署时对合作伙伴的不确定性。与现有方法假设特定的合作伙伴分布不同,我们的方法可以改善最坏情况下的性能保证。广泛的实验,包括对Melting Pot 套件中的协调烹饪任务的评估,显示了我们的方法在鲁棒性上优于自我对弈、假想博弈和最佳反应学习。我们的工作强调了在AHT 中选择合适的队友训练分布以实现鲁棒性的重要性。