LLM2D

摘要

arXiv:2501.13394v2 通知类型: replace-cross 摘要: 设计能够在复杂环境中高效探索的智能代理一直是强化学习中的一个基本挑战。虽然已有许多工作证明基于随机价值函数的技术在单个代理上是有效的，但从理论角度看，将随机化注入一个代理社会以同时探索环境的效果仍然不清楚。我们在本文中建立的理论结果对此问题给出了肯定的答案。我们将并发学习框架应用到带聚合状态表示的随机化最小二乘值迭代（RLSVI）算法中。我们展示了在有限和无限时间框架中的最坏情况下的多项式遗憾界。在两种设置中，每个代理的遗憾界以最优速率$\Theta\left(\frac{1}{\sqrt{N}}\right)$下降，突显了并发学习的优势。我们的算法与文献[@russo2019worst]和[@agrawal2021improved]相比，显示出显著更低的空间复杂度。我们将空间复杂度减少了$K$倍，同时最坏情况下的遗憾界仅增加了$\sqrt{K}$倍，与文献[@agrawal2021improved, russo2019worst]相比。此外，我们还进行了数值实验以验证我们的理论发现。