摘要
强化学习在各种环境中遇到了与鲁棒性和可解释性相关的挑战。传统的 Q 学习算法无法有效地做出决策并利用历史学习经验。为了克服这些局限性,我们提出了认知信念驱动的 Q 学习 (CBDQ),它将主观信念建模集成到 Q 学习框架中,通过赋予智能体类似人类的学习和推理能力来提高决策准确性。受认知科学的启发,我们的方法在行动期望上保持了一个主观信念分布,利用基于聚类的主观信念模型,使智能体能够推断与每个决策相关的潜在概率。CBDQ 通过将历史经验与当前上下文信息相结合,有效地缓解了高估现象并优化了决策策略,模仿了人类决策的动态。我们在各种复杂环境中对离散控制基准任务评估了所提出的方法。结果表明,CBDQ 在处理这些环境时表现出更强的适应性、鲁棒性和类似人类的特征,优于其他基线。我们希望这项工作能为研究人员提供一个新的视角来理解和解释 Q 学习。