LLM2D

arXiv:2412.05265v2 宣告类型: 替换摘要: 本手稿提供了深度强化学习和顺序决策领域的大纲式、实时综述，涵盖了基于值的方法、策略梯度方法、基于模型的方法以及各种其他主题（例如多智能体强化学习、强化学习与大型语言模型以及强化学习与推理）。