摘要
arXiv:2504.11645v1 共享类型: 交叉
摘要:受协作强化学习(RL)和带有时间相关数据的优化的启发,我们研究了一个涉及 $M$ 个代理的通用联邦随机逼近问题,其中每个代理由一个特定于该代理(可能是非线性的)本地算子来表征。目标是代理通过服务器间断地通信以找到这些代理本地算子平均值的根。我们设定的通用性源自于允许 (i) 每个代理的马尔可夫数据和 (ii) 代理本地算子的根之间的异质性。以往少量涉及这两个特征的联邦设置中的工作未能保证收敛到所需点或者展示出协作的优势;更重要的是,他们的算法依赖于投影步骤来保证迭代量的有界性。我们克服了这些局限性。我们开发了一个名为 \texttt{FedHSA} 的新算法,并证明了它能够保证收敛到正确的点,并且由于协作享受了 $M$ 倍的线性样本复杂度加速。据我们所知,这是该类问题的第一个有限时间结果,而无需依赖于投影步骤来证明这一点则需要一个相当复杂的论证,该论证考虑了马尔可夫采样的复杂时序相关性、为节省通信而采取的多次局部步骤以及由异质本地算子引起的漂移效应。我们的结果对一类广泛意义上的异质联邦RL问题(例如,策略评估和控制)具有重要意义,其中代理的马尔可夫决策过程在概率转移核和奖励函数上可以不同。