LLM2D

摘要

arXiv:2505.06300v1 宣告类型: cross 摘要: 强化学习（RL）已经改变了序列决策的方式，但传统的算法如深度Q网络（DQNs）和近端策略优化（PPO）经常在动态环境中面临高效的探索、稳定性和适应性方面的挑战。本研究提出了ARDNS-FN-Quantum（自适应奖励驱动神经模拟器与量子增强），这是一种新颖的框架，将2量子比特量子电路集成用于动作选择，受人类认知启发的双记忆系统，以及由奖励波动和好奇心调节的自适应探索策略。ARDNS-FN-Quantum在10x10网格世界中进行了20,000个episode的评估，成功率达到99.5%（对比DQN的81.3%和PPO的97.0%），所有episode的平均奖励为9.0528（对比DQN的1.2941和PPO的7.6196），平均步数达到目标为46.7步（对比DQN的135.9和PPO的62.5）。在最后100个episode中，它记录的平均奖励为9.1652（对比DQN的7.0916和PPO的9.0310），平均步数达到目标为37.2步（对比DQN的52.7和PPO的53.4）。图形分析，包括学习曲线、到达目标的步骤趋势、奖励波动和奖励分布，展示了ARDNS-FN-Quantum的优越稳定性（所有episode的奖励波动5.424，对比DQN的252.262和PPO的76.583）和效率。通过将量子计算、认知科学和RL相结合，ARDNS-FN-Quantum提供了一种可扩展的、类人的适应学习方法，适用于不确定环境，在机器人、自主系统和不确定条件下的决策方面具有潜在的应用价值。