LLM2D
Home
Arxiv
返回列表
带L2正则化的多臂老虎机策略梯度算法的收敛性
Convergence of a L2 regularized Policy Gradient Algorithm for the Multi Armed Bandit
作者:
Stefana Anita, Gabriel Turinici
发布日期:
11/27/2024
arXiv ID:
oai:arXiv.org:2402.06388v3
摘要
尽管多臂老虎机 (MAB) 和策略梯度方法是强化学习中最常用的框架之一,但用于 MAB 的策略梯度算法的理论性质尚未得到足够的关注。在这项工作中,我们研究了在存在 L2 正则化项和 'softmax' 参数化的前提下,此类过程的收敛性。我们在适当的技术假设下证明了收敛性,并在数值上测试了该过程,包括超出理论设置的情况。测试表明,特别是当初始猜测远离解时,时间相关的正则化过程可以改进规范方法。
查看原文
下载 PDF