LLM2D

摘要

强化学习在各种环境中遇到了与鲁棒性和可解释性相关的挑战。传统的 Q 学习算法无法有效地做出决策并利用历史学习经验。为了克服这些局限性，我们提出了认知信念驱动的 Q 学习 (CBDQ)，它将主观信念建模集成到 Q 学习框架中，通过赋予智能体类似人类的学习和推理能力来提高决策准确性。受认知科学的启发，我们的方法在行动期望上保持了一个主观信念分布，利用基于聚类的主观信念模型，使智能体能够推断与每个决策相关的潜在概率。CBDQ 通过将历史经验与当前上下文信息相结合，有效地缓解了高估现象并优化了决策策略，模仿了人类决策的动态。我们在各种复杂环境中对离散控制基准任务评估了所提出的方法。结果表明，CBDQ 在处理这些环境时表现出更强的适应性、鲁棒性和类似人类的特征，优于其他基线。我们希望这项工作能为研究人员提供一个新的视角来理解和解释 Q 学习。