LLM2D
ARDNS-FN-Quantum:一种适用于动态环境的具有认知启发式自适应探索的量子增强强化学习框架
ARDNS-FN-Quantum: A Quantum-Enhanced Reinforcement Learning Framework with Cognitive-Inspired Adaptive Exploration for Dynamic Environments
作者: Umberto Gon\c{c}alves de Sousa
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06300v1

摘要

arXiv:2505.06300v1 宣告类型: cross 摘要: 强化学习(RL)已经改变了序列决策的方式,但传统的算法如深度Q网络(DQNs)和近端策略优化(PPO)经常在动态环境中面临高效的探索、稳定性和适应性方面的挑战。本研究提出了ARDNS-FN-Quantum(自适应奖励驱动神经模拟器与量子增强),这是一种新颖的框架,将2量子比特量子电路集成用于动作选择,受人类认知启发的双记忆系统,以及由奖励波动和好奇心调节的自适应探索策略。ARDNS-FN-Quantum在10x10网格世界中进行了20,000个episode的评估,成功率达到99.5%(对比DQN的81.3%和PPO的97.0%),所有episode的平均奖励为9.0528(对比DQN的1.2941和PPO的7.6196),平均步数达到目标为46.7步(对比DQN的135.9和PPO的62.5)。在最后100个episode中,它记录的平均奖励为9.1652(对比DQN的7.0916和PPO的9.0310),平均步数达到目标为37.2步(对比DQN的52.7和PPO的53.4)。图形分析,包括学习曲线、到达目标的步骤趋势、奖励波动和奖励分布,展示了ARDNS-FN-Quantum的优越稳定性(所有episode的奖励波动5.424,对比DQN的252.262和PPO的76.583)和效率。通过将量子计算、认知科学和RL相结合,ARDNS-FN-Quantum提供了一种可扩展的、类人的适应学习方法,适用于不确定环境,在机器人、自主系统和不确定条件下的决策方面具有潜在的应用价值。