LLM2D

摘要

arXiv:2502.02377v1 通告类型: 新摘要: 我们提出了一种最小最大-贝叶斯方法来优化即兴团队合作(AHT)，以在部署时对合作伙伴的先验分布考虑对手情况，从而优化策略。与现有方法假设特定的合作伙伴分布不同，我们的方法提高了最坏情况下的性能保证。广泛的实验，包括对由Melting Pot套件中的协同烹饪任务进行的评估，显示了我们的方法在鲁棒性方面优于自博弈、虚构博弈和最佳反应学习。我们的工作突显了选择合适的团队成员训练分布对于在即兴团队合作(AHT)中实现鲁棒性的重要性。