LLM2D

摘要

本文针对具有复杂相互作用的、受有界不确定性影响的连续时间非线性系统，提出了一种自适应事件触发强化学习控制方法。具体来说，该方法能够联合学习控制策略和通信策略，从而在分别学习或仅学习其中之一时减少参数数量和计算开销。通过使用累积奖励来扩充状态空间，累积奖励代表了整个轨迹上的性能，我们证明了在没有显式学习触发条件的情况下，可以准确有效地确定触发条件，从而导致自适应非平稳策略。最后，我们提供了几个数值例子来证明该方法的有效性。