LLM2D

摘要

arXiv:2505.07911v1 宣告类型: cross 摘要：与常规的数据驱动黑盒神经网络相比，贝叶斯推理在代理（例如，机器人/模拟代理）的决策制定中具有许多优势：数据效率、泛化能力、可解释性和安全性，这些优势直接或间接地受益于贝叶斯推理的不确定性量化。然而，很少有综合评论总结贝叶斯推理在强化学习（RL）中的进步，以便为研究人员提供系统的理解。本文专注于将贝叶斯推理与RL结合，而RL如今是代理决策制定的重要方法。具体而言，本文讨论了以下五个主题：1）具有潜在应用的贝叶斯方法。首先讨论基本的贝叶斯方法和模型（贝叶斯规则、贝叶斯学习和贝叶斯共轭模型），随后讨论变分推断、贝叶斯优化、贝叶斯深度学习、贝叶斯主动学习、贝叶斯生成模型、贝叶斯元学习和终身贝叶斯学习。2）贝叶斯方法与基于模型的RL（包括近似方法）、无模型的RL和逆向RL的经典结合。3）与RL最新结合的潜在贝叶斯方法。4）就数据效率、泛化能力、可解释性和安全性对结合贝叶斯方法与RL的方法进行分析比较。5）深入研究六种复杂的RL问题变体，包括未知奖励、部分观测、多智能体、多任务、非线性非高斯和层次化RL问题，并总结贝叶斯方法在RL的数据收集、数据处理和策略学习阶段的工作方式，以为更好的代理决策制定策略铺平道路。