摘要
arXiv:2502.10200v1 宣布类型: crossbench
摘要: 本文提出的动态强化学习(Dynamic RL)直接控制系统动力学,而不是每个时刻的行为者(动作生成神经网络)的输出,从而在强化学习(RL)中带来了从静态到动态的重大质的转变。行为者最初设计为通过与其环境的循环生成混沌动力学,从而使代理能够进行灵活且确定性的探索。动态 RL 使用一个称为“敏感性”的局部索引来控制全局系统动力学,该索引表示每个神经元处理后输入邻域如何收缩或扩展到相应的输出邻域。同时,Sensitivity 调整学习(SAL)防止动态过度收敛,而 Sensitivity 控制的强化学习(SRL)则调整它们 —— 以更有利于再出现、具有正 TD 错误的良好状态转换趋向收敛,以增强探索、具有负 TD 错误的较差转换趋向发散。动态 RL 仅在 Actor-Critic RL 架构中的行为者上应用,将其应用于评论者仍然是一个挑战。它已在两个动态任务上进行了测试,并在没有外部探索噪声或时间逆向计算的情况下有效运行。此外,它在新环境中表现出卓越的适应性,尽管仍存在一些问题。作者将“探索”与“思考”类比,假设“探索通过学习成长为思考”,并认为这种 RL 或许是思考出现的关键技巧,包括从大量现有文本数据无法重建的灵感。最后,尽管作者认为这项研究存在潜在致命风险而不敢推进,但其目的是引发讨论。