LLM2D

摘要

arXiv:2502.14264v1 宣告类型: 新摘要: 深度强化学习代理常常面临在高维感官输入环境中有效协调感知和决策模块的挑战，尤其是当特征的相关性在环境中变化时。本文引入了SPRIG（Stackelberg感知-强化学习与内部博弈动力学），这是一种将单个代理内的感知-策略交互建模为合作Stackelberg博弈的框架。在SPRIG中，感知模块作为领导者，战略性地处理原始感官状态，而策略模块则跟随，基于提取的特征进行决策。SPRIG通过修改后的贝尔曼算子提供了理论上的保证，同时保留了现代策略优化的优势。在Atari BeamRider环境中进行的实验结果表明，SPRIG具有有效性，通过其博弈论平衡特征提取和决策过程，相比于标准PPO实现了约30%更高的回报。