LLM2D

摘要

arXiv:2502.02377v1 宣告类型: 新摘要: 我们提出了一种最小最大-Bayes 方法来优化Ad Hoc 团队合作（AHT），以在合作伙伴的对抗先验下优化政策，并明确考虑部署时对合作伙伴的不确定性。与现有方法假设特定的合作伙伴分布不同，我们的方法可以改善最坏情况下的性能保证。广泛的实验，包括对Melting Pot 套件中的协调烹饪任务的评估，显示了我们的方法在鲁棒性上优于自我对弈、假想博弈和最佳反应学习。我们的工作强调了在AHT 中选择合适的队友训练分布以实现鲁棒性的重要性。