摘要
arXiv:2505.07911v1 宣告类型: cross
摘要:与常规的数据驱动黑盒神经网络相比,贝叶斯推理在代理(例如,机器人/模拟代理)的决策制定中具有许多优势:数据效率、泛化能力、可解释性和安全性,这些优势直接或间接地受益于贝叶斯推理的不确定性量化。然而,很少有综合评论总结贝叶斯推理在强化学习(RL)中的进步,以便为研究人员提供系统的理解。本文专注于将贝叶斯推理与RL结合,而RL如今是代理决策制定的重要方法。具体而言,本文讨论了以下五个主题:1)具有潜在应用的贝叶斯方法。首先讨论基本的贝叶斯方法和模型(贝叶斯规则、贝叶斯学习和贝叶斯共轭模型),随后讨论变分推断、贝叶斯优化、贝叶斯深度学习、贝叶斯主动学习、贝叶斯生成模型、贝叶斯元学习和终身贝叶斯学习。2)贝叶斯方法与基于模型的RL(包括近似方法)、无模型的RL和逆向RL的经典结合。3)与RL最新结合的潜在贝叶斯方法。4)就数据效率、泛化能力、可解释性和安全性对结合贝叶斯方法与RL的方 法进行分析比较。5)深入研究六种复杂的RL问题变体,包括未知奖励、部分观测、多智能体、多任务、非线性非高斯和层次化RL问题,并总结贝叶斯方法在RL的数据收集、数据处理和策略学习阶段的工作方式,以为更好的代理决策制定策略铺平道路。