LLM2D

摘要

尽管多臂老虎机 (MAB) 和策略梯度方法是强化学习中最常用的框架之一，但用于 MAB 的策略梯度算法的理论性质尚未得到足够的关注。在这项工作中，我们研究了在存在 L2 正则化项和 'softmax' 参数化的前提下，此类过程的收敛性。我们在适当的技术假设下证明了收敛性，并在数值上测试了该过程，包括超出理论设置的情况。测试表明，特别是当初始猜测远离解时，时间相关的正则化过程可以改进规范方法。