摘要
arXiv:2502.05498v1 公告类型: cross
摘要: 我们提出了一种新的框架,用于在勒伊伯尔一般和博弈中进行在线学习,其中两名代理,领导者和追随者,进行顺序的轮流互动。该方法的核心是一种学习到的拟微分映射,将联合动作空间映射到光滑的黎曼流形上,称为勒伊伯尔流形。这种映射通过神经归一化流实现,确保形成可处理的共面子空间,从而能够高效地进行在线学习。假设勒伊伯尔流形上代理的奖励函数之间存在线性关系,我们的构建体允许应用标准的多臂赌博机算法。然后,我们为在凸流形上最小化后悔提供了一个严谨的理论基础,并建立了学习勒伊伯尔均衡的有限时间简单后悔有界。将流形学习与博弈论的结合揭示了神经归一化流作为有效的多代理学习工具的未被认识到的潜力。我们展示了与标准基准相比,我们的方法的有效性,应用领域包括网络安全和经济供应链优化。